剑痴乎

  • 首页
  • 文章分类
    • 音视频
    • WebRTC
    • 编程之美
    • Linux
    • Windows
    • 生活点滴
    • 校园生活
  • 参考
    • API参考
    • 实用工具
    • 测试音视频
    • 文档
  • 留言板
  • 关于
剑痴乎
代码为剑,如痴如醉
  1. 首页
  2. AI
  3. 正文

语音克隆TTS调研

2025年3月19日 7点热度 0人点赞 0条评论

前言

随着大模型语音对话时代的到来(ChatGPT-4o、Gemini Live、豆包等),高自然度、零/少样本语音克隆已经成为AI应用落地的核心痛点之一。无论是AI短剧配音、个性化数字人、语音客服、播客/有声书生产,还是本地化隐私部署,语音克隆TTS的质量、延迟、显存占用、跨语言能力都直接决定了用户体验。

本文是在2025年初测评、对比了十几款开源TTS方案后的记录。

TTS测评调研(基础工具篇)

在对比具体模型之前,先简单罗列一些常用的客观/主观评测手段,便于验证效果。

大模型语音对话时代的TTS评测实践

地址:QECon技术分享-大模型语音对话时代的TTS评测实践


微软评测服务

地址:使用发音评估

介绍了如何利用 Azure 语音服务的发音评估功能,通过编程实现对用户发音的自动评估。该功能可以分析语音的准确性、流畅性、完整性等指标,适用于语言学习、语音训练等场景。

seed-tts-eval(最常用客观指标)

地址:https://github.com/BytedanceSpeech/seed-tts-eval

用于最基础的评测,基本各个TTS模型论文里都会给出这两个指标,包括:
词错误率(WER)和语音相似度(SIM)指标。

  • 对于词错误率,分别使用 Whisper-large-v3 和 Paraformer-zh 作为英语和中文的自动语音识别(ASR)引擎
  • 对于语音相似度,使用在说话人验证任务上微调的 WavLM-large(模型链接)来获取说话人嵌入,用于计算每个测试语音样本与参考语音样本的余弦相似度

开源语音克隆TTS主流方案

F5-TTS

介绍

官方地址:https://github.com/SWivid/F5-TTS
F5-TTS是由上海交通大学、剑桥大学与吉利汽车研究院联合研发的开源文本转语音(TTS)系统,其核心创新在于结合非自回归生成框架与流匹配(Flow Matching)技术,实现了高效且高质量的语音合成。项目基于扩散变换器(Diffusion Transformer, DiT)和ConvNeXt V2架构,通过流匹配优化生成路径,显著提升了语音的自然度和生成速度,推理效率较传统自回归模型提高数倍。
该系统的技术亮点包括:

  1. 非自回归并行生成:采用并行数据处理机制,突破传统逐帧生成限制,支持长文本(如30秒以上语音)的快速合成,同时降低显存占用
  2. 零样本声音克隆:无需目标语音数据训练,仅需15秒内的参考音频即可复刻说话人音色,支持多角色语音切换
  3. 多模态控制能力:集成情感表达调节与语速控制模块,可根据文本语义动态调整语音的情感强度和节奏
  4. 多语言与鲁棒性:在10万小时中英文混合数据集上训练,具备跨语言合成能力,并能有效处理复杂标点与特殊符号(如中文冒号自动转换)

Demo

在线体验:https://huggingface.co/spaces/mrfakename/E2-F5-TTS

CosyVoice

介绍

官方地址:https://github.com/FunAudioLLM/CosyVoice
CosyVoice是由阿里巴巴通义实验室研发的开源语音合成大模型,专注于自然语言交互场景下的高保真语音生成。该项目基于监督离散语音标记技术,实现了多语言支持、音色克隆与情感控制的深度融合,其技术架构支持离线和流式一体化建模。
核心亮点包括:

  1. 仅需3秒音频样本即可完成音色克隆(基座模型CosyVoice-300M),支持中文、英文、日文、粤语等跨语种合成;
  2. 通过富文本或自然语言指令实现韵律、情感的细粒度控制(Instruct模型版本);
  3. 在发音准确性和稳定性上较前代提升显著,MOS评分达5.53,接近商业化产品水平。

Demo

在线体验:https://huggingface.co/spaces/FunAudioLLM/CosyVoice2-0.5B

Step-Audio-TTS-3B

介绍

官方地址:https://github.com/stepfun-ai/Step-Audio

阶跃星辰开源了一个130B 语音-文本多模态统一理解与生成模型:Step-Audio。Step-Audio通过其生成式语音数据引擎,能以更低的成本进行高质量的语音克隆。它通过“蒸馏”技术,将模型简化为一个更轻量的版本 Step-Audio-TTS-3B,并且这个模型也被开源,意味着任何人都可以使用和改进它。

Step-Audio 结合了语音理解与生成能力,提供了一种多模态的解决方案,能够有效支持多种语音交互场景。

该模型旨在解决现有开源语音模型在语音数据收集、动态控制和智能化方面的局限性。

  • 这是一个集成语音识别、语义理解、对话生成、语音克隆、音频编辑和语音合成等功能的单一模型。该模型通过多模态训练,使得语音理解与生成可以无缝对接。
  • Step-Audio-Chat版本已经开源,支持高质量的对话生成。
  • Step-Audio通过其生成性语音数据引擎,消除了传统TTS(文本转语音)系统对人工语音数据收集的依赖。它能够生成高质量的语音数据,并通过其130B参数的模型训练出了资源高效的Step-Audio-TTS-3B模型,具备增强的指令跟随能力。

Demo

在线体验:https://www.modelscope.cn/studios/Swarmeta_AI/Step-Audio-TTS-3B

ChatTTS-UI的语音克隆

介绍

官方地址:https://github.com/jianchang512/clone-voice

所用模型为coqui.ai出品的xtts_v

ChatTTS-UI是一个集成语音克隆与视频翻译的端到端工具链,支持完全离线部署。clone-voice是其中一个声音克隆工具,可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。

Demo

Demo下载地址:https://pyvideotrans.com/

fish-speech

介绍

官方地址:https://github.com/fishaudio/fish-speech

Fish Speech 是一个全新的文本转语音(TTS)解决方案,该项目由fishaudio开发。 当前模型使用约十五万小时三语数据训练,对中文支持非常的完美。 能够熟练处理和生成中文、日语和英语的语音,语言处理能力接近人类水平,并且声音表现形式丰富多变。

  • DualAR 架构:双自回归Transformer设计。主 Transformer 以 21Hz 运行,次Transformer将潜在状态转换为声学特征。计算效率和输出质量都优于传统的级联方法。
  • 训练数据:拥有 100 万小时的多语言训练数据;
  • 高准确率:英文单词错误率(WER)为3.5%,英文字符错误率(CER)为1.2%,中文字符错误率(CER)为1.3%;
  • 低延迟:语音克隆延迟低于 150 毫秒。
  • 强泛化:摒弃了传统的音素依赖,直接理解与处理文本,无需繁杂的语音规则库。

Demo

在线体验:https://fish.audio/train/new-model/

OpenVoice

介绍

OpenVoice 是由MyShell AI推出的一个免费开源的AI即时语音克隆项目,仅需短语音片段即可复制参考说话者的音色,同时支持情感、口音、韵律等多维风格控制。该项目实现了零样本跨语言语音克隆,无需针对每种语言收集大规模说话者数据。
技术亮点:

  • 细粒度风格控制(情绪、语速、停顿等)
  • 零样本跨语言克隆,极大降低数据需求
  • 计算效率高,适用于大规模部署

Demo

在线体验:https://huggingface.co/spaces/myshell-ai/OpenVoice

Spark-TTS

介绍

Spark-TTS是一种新型的文本转语音(TTS)系统,它的核心是BiCodec——一种单流语音编解码器。这个编解码器可以把语音分解成两种互补的“语音令牌”:一种是低比特率的语义令牌,用来捕捉语言内容;另一种是固定长度的全局令牌,用来捕捉说话者的属性,比如音色、音调等。这种分离式的表示方法,结合了强大的Qwen2.5语言模型和一种叫做“思维链”(CoT)的生成方法,让Spark-TTS能够实现从粗粒度(比如性别、说话风格)到细粒度(比如精确的音高值、说话速度)的控制。

Sesame语音模型CSM(没有AI味)

介绍

在语音合成技术的发展中,有一个长期存在的挑战——“恐怖谷效应”(Uncanny Valley)。

当人工合成的语音接近真实人声但仍然存在微小差异时,人类会感到奇怪或不适,这就是所谓的“恐怖谷效应”。

Sesame 公司的目标是研发一种语音模型,跨越这一“恐怖谷”,让用户感到与AI的语音交互如同与真人对话般自然。他们提出了“语音存在感”的概念,指语音交互中让人感到真实、被理解和被重视的特质。他们希望通过技术创新,让AI语音不仅听起来像人,还能在情感和语境上与用户产生共鸣。

实现“语音存在感”的三大核心要素:

  • 情商(Emotional Intelligence):模型需能感知并回应用户的语气、情绪和对话背景。例如,当用户表现出开心或沮丧时,AI能相应调整语调和内容。
  • 低延迟(Low Latency):为了让对话流畅自然,AI的响应时间必须极短,接近人类对话中的即时反应。
  • 语音质量(Voice Quality):声音需逼真且富有表现力,避免机械感,同时保留细腻的语调变化。

为了实现这些目标,Sesame开发了对话语音模型(Conversational Speech Model,简称CSM)。该模型采用端到端的多模态学习方法,利用Transformer架构,结合对话历史生成更自然、连贯的语音输出。与传统的文本转语音(TTS)模型不同,CSM不仅关注高质量的音频生成,更强调对上下文的实时理解和适应,从而解决了传统模型在多样性和情境适应性方面的不足。

Sesame公司展示了他们最新的研究成果,他们使用了约100万小时的公开音频数据进行训练了一个语音模型,它在个性、记忆、表达能力和恰当性上表现出了非常惊人的能力。

Sesame演示(Demo)的语音合成质量已经超越OpenAI的高级语音模式(Advanced Voice Mode)。

目前只支持英文,听说后面会开源模型。

Demo

在线体验:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

GPT-SoVITS(中文/粤语少样本克隆黑马)

介绍

GPT-SoVITS是一款强大的少样本语音转换与语音合成工具。

官方地址:https://github.com/RVC-Boss/GPT-SoVITS

  • 极低门槛克隆:零样本只需5秒参考音频即可合成(相似度80%+),1分钟few-shot微调后相似度可达95%+,甚至接近商业级
  • 支持中、日、英、韩、粤五语种,且跨语言合成能力强(粤语表现尤为出色,常被称“粤语天花板”)
  • WebUI极其友好,一键训练+推理,Windows集成包直接双击运行
  • v3/v4大幅提升zero-shot相似度、情绪表现力和微调效果;v4修复电音问题,原生48k输出更通透不闷
  • 推理速度快(RTX 4090 RTF≈0.014,4060Ti也能实时),显存占用适中(v2Pro/v4 ≈ v3的性能但更省资源)
  • 社区生态活跃,常与RVC、ComfyUI插件结合,用于配音、唱歌、实时变声等场景

Demo

Hugging Face官方/社区Demo(高速推理):https://huggingface.co/spaces/lj1995/GPT-SoVITS-ProPlus (或搜索“GPT-SoVITS”找最新fork)

总结

前面方案中,经测试,支持最全,方便后续微调,效果最好的要数GPT-SoVITS方案了。

本作品采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 进行许可
标签: AI
最后更新:2026年3月14日

Jeff

管理员——代码为剑,如痴如醉

打赏 点赞
< 上一篇

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

文章目录
  • 前言
  • TTS测评调研(基础工具篇)
    • 大模型语音对话时代的TTS评测实践
    • 微软评测服务
    • seed-tts-eval(最常用客观指标)
  • 开源语音克隆TTS主流方案
    • F5-TTS
    • CosyVoice
    • Step-Audio-TTS-3B
    • ChatTTS-UI的语音克隆
    • fish-speech
    • OpenVoice
    • Spark-TTS
    • Sesame语音模型CSM(没有AI味)
    • GPT-SoVITS(中文/粤语少样本克隆黑马)
  • 总结
相关文章
  • 本机Graphrag+ollma跑通

COPYRIGHT © 2026 jianchihu.net. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang