Seed-TTS: 字节推出高质量多功能语音生成模型

8 个月前 语音视觉 142

Seed-TTS:一种高质量多功能语音生成模型

字节跳动在 arXiv 上发表Seed-TTS 模型的论文《Seed-TTS: A Family of High-Quality Versatile Speech Generation Models》。

以下是论文的最简要摘要:

我们介绍了Seed-TTS,一个大规模自回归文本到语音(TTS)模型家族,能够生成几乎无法与人类语音区分的语音。

Seed-TTS是语音生成的基础模型,在语音上下文学习方面表现出色,在说话者相似性和自然性方面取得了与客观和主观评价中的基本真理人类语音相匹配的表现。通过微调,我们在这些指标上获得了更高的主观分数。

Seed-TTS对情感等各种语音属性提供了优越的可控性,能够为野外的演讲者产生高度表现力和多样化的语音。此外,我们还提出了一种用于语音分解的自蒸馏方法,以及一种增强学习方法来增强模型的鲁棒性、说话人相似性和可控性。

我们还提出了Seed-TTS模型的非自回归(NAR)变体,名为Seed-TTSDiT,它采用完全基于扩散的架构。与以前基于NAR的TTS系统不同,种子-TTSDiT 不依赖于预先估计的音素持续时间,通过端到端处理执行语音生成。

我们证明了该变体在客观和主观评价中与基于语言模型的变体具有相当的性能,并展示了其在语音编辑中的有效性。


字节跳动

相关资讯