掩码GCT:使用掩码生成编解码器转换器的 Zero-Shot Text-to-Speech

大规模文本转语音 (TTS) 系统通常分为自回归和非自回归系统。自回归系统隐式地模拟了持续时间,但在稳健性和缺乏持续时间可控性方面表现出一定的缺陷。非自回归系统在训练期间需要文本和语音之间的显式对齐信息,并预测语言单位(例如电话)的持续时间,这可能会损害它们的自然性。

趣丸科技与香港中文大学(深圳)合作推出的语音合成大模型Masked Generative Codec Transformer (MaskGCT),是一种完全非自回归的 TTS 模型,无需在文本和语音监督之间提供明确的对齐信息,也无需电话级别的持续时间预测。

MaskGCT 是一个两阶段模型:在第一阶段,模型使用文本来预测从语音自我监督学习 (SSL) 模型中提取的语义标记,在第二阶段,模型预测以这些语义标记为条件的声学标记。MaskGCT 遵循掩码和预测学习范式。在训练过程中,MaskGCT 学习根据给定的条件和提示预测掩蔽的语义或声学标记。在推理过程中,模型以并行方式生成指定长度的 Token。对 100K 小时野外语音的实验表明,MaskGCT 在质量、相似性和可理解性方面优于当前最先进的零样本 TTS 系统。

MaskGCT 的优势

  • 更高的自然度和相似性:与现有的TTS系统相比,MaskGCT 在语音的自然度、相似度和可理解性方面表现更佳。
  • 灵活性和可控性:MaskGCT 支持对语音生成的多样性和情感控制,使其在多种应用场景中具有更广泛的适用性​。
  • 快速推理:模型通过并行解码机制,大幅降低了推理时间,适合实时应用​。

MaskGCT 解决的些问题

  • 无需文本与语音对齐信息:
    传统的 TTS 系统需要明确的文本与语音对齐信息来指导生成过程,例如需要逐音素的时长预测。这增加了模型的复杂性,也可能限制生成结果的自然性。
    MaskGCT 通过掩码生成变换器的机制,不再依赖这种对齐信息,使模型训练和推理过程更为简洁。
  • 不需要音素级别的时长预测:
    很多非自回归 TTS 系统需要预测音素级别的时长,这导致了复杂的生成流程以及较为标准化的语音输出。
    MaskGCT 摆脱了时长预测的需求,直接生成语义和声学标记,从而提高了生成语音的自然度和多样性。
  • 提高了生成速度与鲁棒性:
    自回归 TTS 系统在生成每个语音标记时需要逐个推理,速度较慢,且易受到噪声的影响,导致生成质量下降。
    MaskGCT 采用非自回归架构,支持并行推理,显著加快了生成速度,并通过掩码机制提高了生成的鲁棒性。
    多任务适用性:
    MaskGCT 不仅可以实现零样本的文本到语音转换,还可以扩展到其他任务,如跨语言配音、语音转换、情感控制等,展现了作为语音生成基础模型的潜力。
免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
相关资讯