通义开源语音基座大模型：SenseVoice和CosyVoice

管理员 1 年前

语音视觉

2894

阿里云通义语音团队开源了语音基座大模型：SenseVoice和CosyVoice。

SenseVoice多语言音频理解大模型：多语言语音识别在中文和粤语上相比Whisper相对提升+50%，推理速度快15倍，并且支持SOTA的情绪识别和音频事件检测。

CosyVoice多语言音频生成大模型：通过超过17万小时的多语言音频数据训练，支持多语言、音色和情感控制，CosyVoice则在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。

通义大模型阿里巴巴开源语音

相关网站

堆友

零门槛AI绘画+多种电商设计神器

Venice AI

注重隐私的生成式AI平台

Yoohe

一键生成AI 音乐创作

LLaMA-Factory Online

LLaMA-Factory Online

在线大模型微调平台 | 一站式低代码训练服务

SQLBot

基于大模型和RAG的智能问数系统

Spirit VLA

千寻智能视觉-语言-动作模型

WAN

阿里通义万相视频生成大模型

Xiaomi MiMo

小米通用智能基座 MiMo

相关资讯