前言
随着大模型语音对话时代的到来(ChatGPT-4o、Gemini Live、豆包等),高自然度、零/少样本语音克隆已经成为AI应用落地的核心痛点之一。无论是AI短剧配音、个性化数字人、语音客服、播客/有声书生产,还是本地化隐私部署,语音克隆TTS的质量、延迟、显存占用、跨语言能力都直接决定了用户体验。
本文是在2025年初测评、对比了十几款开源TTS方案后的记录。
TTS测评调研(基础工具篇)
在对比具体模型之前,先简单罗列一些常用的客观/主观评测手段,便于验证效果。
大模型语音对话时代的TTS评测实践
地址:QECon技术分享-大模型语音对话时代的TTS评测实践



微软评测服务
地址:使用发音评估
介绍了如何利用 Azure 语音服务的发音评估功能,通过编程实现对用户发音的自动评估。该功能可以分析语音的准确性、流畅性、完整性等指标,适用于语言学习、语音训练等场景。

seed-tts-eval(最常用客观指标)
地址:https://github.com/BytedanceSpeech/seed-tts-eval
用于最基础的评测,基本各个TTS模型论文里都会给出这两个指标,包括:
词错误率(WER)和语音相似度(SIM)指标。
- 对于词错误率,分别使用 Whisper-large-v3 和 Paraformer-zh 作为英语和中文的自动语音识别(ASR)引擎
- 对于语音相似度,使用在说话人验证任务上微调的 WavLM-large(模型链接)来获取说话人嵌入,用于计算每个测试语音样本与参考语音样本的余弦相似度
开源语音克隆TTS主流方案
F5-TTS
介绍
官方地址:https://github.com/SWivid/F5-TTS
F5-TTS是由上海交通大学、剑桥大学与吉利汽车研究院联合研发的开源文本转语音(TTS)系统,其核心创新在于结合非自回归生成框架与流匹配(Flow Matching)技术,实现了高效且高质量的语音合成。项目基于扩散变换器(Diffusion Transformer, DiT)和ConvNeXt V2架构,通过流匹配优化生成路径,显著提升了语音的自然度和生成速度,推理效率较传统自回归模型提高数倍。
该系统的技术亮点包括:
- 非自回归并行生成:采用并行数据处理机制,突破传统逐帧生成限制,支持长文本(如30秒以上语音)的快速合成,同时降低显存占用
- 零样本声音克隆:无需目标语音数据训练,仅需15秒内的参考音频即可复刻说话人音色,支持多角色语音切换
- 多模态控制能力:集成情感表达调节与语速控制模块,可根据文本语义动态调整语音的情感强度和节奏
- 多语言与鲁棒性:在10万小时中英文混合数据集上训练,具备跨语言合成能力,并能有效处理复杂标点与特殊符号(如中文冒号自动转换)
Demo
在线体验:https://huggingface.co/spaces/mrfakename/E2-F5-TTS
CosyVoice
介绍
官方地址:https://github.com/FunAudioLLM/CosyVoice
CosyVoice是由阿里巴巴通义实验室研发的开源语音合成大模型,专注于自然语言交互场景下的高保真语音生成。该项目基于监督离散语音标记技术,实现了多语言支持、音色克隆与情感控制的深度融合,其技术架构支持离线和流式一体化建模。
核心亮点包括:
- 仅需3秒音频样本即可完成音色克隆(基座模型CosyVoice-300M),支持中文、英文、日文、粤语等跨语种合成;
- 通过富文本或自然语言指令实现韵律、情感的细粒度控制(Instruct模型版本);
- 在发音准确性和稳定性上较前代提升显著,MOS评分达5.53,接近商业化产品水平。
Demo
在线体验:https://huggingface.co/spaces/FunAudioLLM/CosyVoice2-0.5B
Step-Audio-TTS-3B
介绍
官方地址:https://github.com/stepfun-ai/Step-Audio
阶跃星辰开源了一个130B 语音-文本多模态统一理解与生成模型:Step-Audio。Step-Audio通过其生成式语音数据引擎,能以更低的成本进行高质量的语音克隆。它通过“蒸馏”技术,将模型简化为一个更轻量的版本 Step-Audio-TTS-3B,并且这个模型也被开源,意味着任何人都可以使用和改进它。
Step-Audio 结合了语音理解与生成能力,提供了一种多模态的解决方案,能够有效支持多种语音交互场景。
该模型旨在解决现有开源语音模型在语音数据收集、动态控制和智能化方面的局限性。
- 这是一个集成语音识别、语义理解、对话生成、语音克隆、音频编辑和语音合成等功能的单一模型。该模型通过多模态训练,使得语音理解与生成可以无缝对接。
- Step-Audio-Chat版本已经开源,支持高质量的对话生成。
- Step-Audio通过其生成性语音数据引擎,消除了传统TTS(文本转语音)系统对人工语音数据收集的依赖。它能够生成高质量的语音数据,并通过其130B参数的模型训练出了资源高效的Step-Audio-TTS-3B模型,具备增强的指令跟随能力。
Demo
在线体验:https://www.modelscope.cn/studios/Swarmeta_AI/Step-Audio-TTS-3B
ChatTTS-UI的语音克隆
介绍
官方地址:https://github.com/jianchang512/clone-voice
所用模型为coqui.ai出品的xtts_v
ChatTTS-UI是一个集成语音克隆与视频翻译的端到端工具链,支持完全离线部署。clone-voice是其中一个声音克隆工具,可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。
Demo
Demo下载地址:https://pyvideotrans.com/
fish-speech
介绍
官方地址:https://github.com/fishaudio/fish-speech
Fish Speech 是一个全新的文本转语音(TTS)解决方案,该项目由fishaudio开发。 当前模型使用约十五万小时三语数据训练,对中文支持非常的完美。 能够熟练处理和生成中文、日语和英语的语音,语言处理能力接近人类水平,并且声音表现形式丰富多变。
- DualAR 架构:双自回归Transformer设计。主 Transformer 以 21Hz 运行,次Transformer将潜在状态转换为声学特征。计算效率和输出质量都优于传统的级联方法。
- 训练数据:拥有 100 万小时的多语言训练数据;
- 高准确率:英文单词错误率(WER)为3.5%,英文字符错误率(CER)为1.2%,中文字符错误率(CER)为1.3%;
- 低延迟:语音克隆延迟低于 150 毫秒。
- 强泛化:摒弃了传统的音素依赖,直接理解与处理文本,无需繁杂的语音规则库。
Demo
在线体验:https://fish.audio/train/new-model/
OpenVoice
介绍
OpenVoice 是由MyShell AI推出的一个免费开源的AI即时语音克隆项目,仅需短语音片段即可复制参考说话者的音色,同时支持情感、口音、韵律等多维风格控制。该项目实现了零样本跨语言语音克隆,无需针对每种语言收集大规模说话者数据。
技术亮点:
- 细粒度风格控制(情绪、语速、停顿等)
- 零样本跨语言克隆,极大降低数据需求
- 计算效率高,适用于大规模部署
Demo
在线体验:https://huggingface.co/spaces/myshell-ai/OpenVoice
Spark-TTS
介绍
Spark-TTS是一种新型的文本转语音(TTS)系统,它的核心是BiCodec——一种单流语音编解码器。这个编解码器可以把语音分解成两种互补的“语音令牌”:一种是低比特率的语义令牌,用来捕捉语言内容;另一种是固定长度的全局令牌,用来捕捉说话者的属性,比如音色、音调等。这种分离式的表示方法,结合了强大的Qwen2.5语言模型和一种叫做“思维链”(CoT)的生成方法,让Spark-TTS能够实现从粗粒度(比如性别、说话风格)到细粒度(比如精确的音高值、说话速度)的控制。
Sesame语音模型CSM(没有AI味)
介绍
在语音合成技术的发展中,有一个长期存在的挑战——“恐怖谷效应”(Uncanny Valley)。
当人工合成的语音接近真实人声但仍然存在微小差异时,人类会感到奇怪或不适,这就是所谓的“恐怖谷效应”。
Sesame 公司的目标是研发一种语音模型,跨越这一“恐怖谷”,让用户感到与AI的语音交互如同与真人对话般自然。他们提出了“语音存在感”的概念,指语音交互中让人感到真实、被理解和被重视的特质。他们希望通过技术创新,让AI语音不仅听起来像人,还能在情感和语境上与用户产生共鸣。
实现“语音存在感”的三大核心要素:
- 情商(Emotional Intelligence):模型需能感知并回应用户的语气、情绪和对话背景。例如,当用户表现出开心或沮丧时,AI能相应调整语调和内容。
- 低延迟(Low Latency):为了让对话流畅自然,AI的响应时间必须极短,接近人类对话中的即时反应。
- 语音质量(Voice Quality):声音需逼真且富有表现力,避免机械感,同时保留细腻的语调变化。
为了实现这些目标,Sesame开发了对话语音模型(Conversational Speech Model,简称CSM)。该模型采用端到端的多模态学习方法,利用Transformer架构,结合对话历史生成更自然、连贯的语音输出。与传统的文本转语音(TTS)模型不同,CSM不仅关注高质量的音频生成,更强调对上下文的实时理解和适应,从而解决了传统模型在多样性和情境适应性方面的不足。
Sesame公司展示了他们最新的研究成果,他们使用了约100万小时的公开音频数据进行训练了一个语音模型,它在个性、记忆、表达能力和恰当性上表现出了非常惊人的能力。
Sesame演示(Demo)的语音合成质量已经超越OpenAI的高级语音模式(Advanced Voice Mode)。
目前只支持英文,听说后面会开源模型。
Demo
在线体验:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
GPT-SoVITS(中文/粤语少样本克隆黑马)
介绍
GPT-SoVITS是一款强大的少样本语音转换与语音合成工具。
官方地址:https://github.com/RVC-Boss/GPT-SoVITS
- 极低门槛克隆:零样本只需5秒参考音频即可合成(相似度80%+),1分钟few-shot微调后相似度可达95%+,甚至接近商业级
- 支持中、日、英、韩、粤五语种,且跨语言合成能力强(粤语表现尤为出色,常被称“粤语天花板”)
- WebUI极其友好,一键训练+推理,Windows集成包直接双击运行
- v3/v4大幅提升zero-shot相似度、情绪表现力和微调效果;v4修复电音问题,原生48k输出更通透不闷
- 推理速度快(RTX 4090 RTF≈0.014,4060Ti也能实时),显存占用适中(v2Pro/v4 ≈ v3的性能但更省资源)
- 社区生态活跃,常与RVC、ComfyUI插件结合,用于配音、唱歌、实时变声等场景
Demo
Hugging Face官方/社区Demo(高速推理):https://huggingface.co/spaces/lj1995/GPT-SoVITS-ProPlus (或搜索“GPT-SoVITS”找最新fork)
总结
前面方案中,经测试,支持最全,方便后续微调,效果最好的要数GPT-SoVITS方案了。

文章评论