变声器RVC

一.简介

RVC：基于检索的语音转换技术

Retrieval-based Voice Conversion（RVC）是一种先进的语音转换技术，旨在通过少量音频样本（通常不到10分钟）实现高质量的语音风格转换。RVC的核心架构基于VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech），并引入了检索模块以增强转换效果。

RVC的原理

技术架构

RVC的主要模块包括：

RVC模型基于VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）框架构建，主要由以下组件构成：

特征提取器（Feature Extractor）：使用HuBERT模型提取输入语音的声学特征。HuBERT模型类似于BERT在自然语言处理中的应用，能够提取与说话人音色无关的语音特征。
音高提取器（Pitch Extractor）：通过WORLD声码器或基于CNN的模型（如Crepe）提取输入语音的基频（F0），以保留原始语音的语调和旋律。
生成器（Generator）：负责将提取的特征转换为目标语音。生成器通过对抗训练生成自然流畅的语音。
判别器（Discriminator）：用于区分生成的语音是否为真实语音，通过对抗训练优化生成器的输出。