前言 随着大模型语音对话时代的到来(ChatGPT-4o、Gemini Live、豆包等),高自然度、零/少样本语音克隆已经成为AI应用落地的核心痛点之一。无论是AI短剧配音、个性化数字人、语音客服、播客/有声书生产,还是本地化隐私部署,语音克隆TTS的质量、延迟、显存占用、跨语言能力都直接决定了用户体验。 本文是在2025年初测评、对比了十几款开源TTS方案后的记录。 TTS测评调研(基础工具篇) 在对比具体模型之前,先简单罗列一些常用的客观/主观评测手段,便于验证效果。 大模型语音对话时代的TTS评测实践 地址…