通义开源语音基座大模型:SenseVoice和CosyVoice

8 个月前 语音视觉 101

阿里云通义语音团队开源了语音基座大模型:SenseVoice和CosyVoice。

SenseVoice多语言音频理解大模型:多语言语音识别在中文和粤语上相比Whisper相对提升+50%,推理速度快15倍,并且支持SOTA的情绪识别和音频事件检测。

CosyVoice多语言音频生成大模型:通过超过17万小时的多语言音频数据训练,支持多语言、音色和情感控制,CosyVoice则在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。

相关资讯