IndexTTS从第一代到2.0版本经历了三个关键迭代。第一代模型采用Acoustic TOKEN直接包含声学信息,去掉扩散模型层,通过字符-拼音混合建模支持任意语种参考音频,但存在情感表现平淡和无法控制语速的局限。
2.0版本构建了全新的自回归架构,核心由T-to-S模块(文本到语义)、S-to-Mel模块、BigVGAN V2声码器和T-to-E模块组成。其中T-to-S模块采用GPT-2结构,通过三阶段训练(全量数据→加入情感特征→冻结参数全量训练)实现音色与情感的精准解耦,使情感向量能独立控制而不损伤音色。
"在AI和语音技术飞速发展的今天,TTS已成为内容创作中不可或缺的基础能力。"
IndexTTS 2.0提供三种递进式情感控制方案。参考音频模式通过上传音色和情绪参考音频,支持分别调节情感权重;情感向量模式提供预设情绪标签供创作者直接选择;自然语言模式通过输入情感描述(如"高兴惊喜,特别开心")触发模型生成对应情感。
时长控制功能采用句级别粒度,创作者可设定目标时长实现快慢语速调节,结合标点符号控制可实现节奏微调。该方案完全解决了第一代模型需要后期信号变速的痛点,在影视配音中实现精准的音画卡位。
IndexTTS 2.0已在多个高端制作中验证效果。影视原声翻译可保留原片角色情绪的愤怒、消极等细微差异,支持中英混合生成,仅需参考音频即可精准还原;名场面复刻通过替换声线完成台词和语气的完整转换,如用丁真/王媛声线改演《让子弹飞》片段;专业内容制作包括2025年BML大会全程口播和首部AI纪录片《太阳系》配音,均获得业界好评。
在生僻字和方言适配上,模型支持拼音输入方案(如"zhōu guó"表示"周国"),能正确处理发音歧义。对接近普通话的方言如北京话、东北话通过韵律调节可支持,但粤语、吴语等差异较大的方言仍需后续迭代。
IndexTTS 2.0提供多层级获取方式:GitHub完整开源版支持本地部署与Web UI使用;Hugging Face/ModelScope平台提供在线推理无需配置。硬件要求为显存12GB及以上(与显卡代数无关),目前仅支持NVIDIA显卡。
生成内容长度方面,150字左右生成效果最优,长文本可通过拆短句方案解决;笑声/哭声生成需提供相应情绪的参考音频;句级时长控制无字级细粒度,需要精准控制时需配合后期剪辑。
"商用作品使用真人样音需要真人授权。关于模型推理出来的音频的商用问题,可到GitHub查看主页的法律介绍。"