Mini-Omni

开源多模态大型语言模型

训练模型

1 年前

7965

598

Mini-Omni是一个开源多模态大型语言模型，具备实时对话能力和端到端的语音输入输出功能。通过独特的文本指导并行生成方法，实现了与文本能力一致的语音推理输出，仅需极少的额外数据和模块。

Mini-Omni还引入了一种“任何模型都能说话”的创新方法，通过最小的训练和修改，快速地将其他模型的文本处理能力转换为语音交互能力。

主要特点

端到端的多模态交互能力： Mini-Omni不仅支持文本输入输出，还能处理语音信号，实现真正的语音到语音的交流，这一点是通过文本指导并行生成技术实现的。
高效的实时对话能力：通过创新的并行生成和批处理并行解码技术，Mini-Omni能够在对话中实时响应，显著减少了延迟，提高了交互的自然流畅性。
模型和数据效率：该模型使用的是比较小的0.5B参数规模，但通过高效的训练和优化策略，实现了与大模型相媲美的性能，特别是在资源有限的环境下表现出色。
"任何模型都能说话"的方法：这是一种新颖的方法，允许通过最小的训练和修改，迅速将其他语言模型的文本处理能力扩展到语音交互领域。
专门优化的数据集VoiceAssistant-400K：为了训练和优化语音输出，Mini-Omni使用了特别开发的VoiceAssistant-400K数据集，该数据集旨在帮助模型在提供语音助手服务时减少生成代码符号，增强模型在真实应用中的实用性。

免责声明：本网站仅提供网址导航服务，对链接内容不负任何责任或担保。