VITA,这是有史以来第一个可以处理视频、图像、文本和音频,同时具有高级功能的多模态交互体验。VITA是腾讯优图实验室在交互式全模态大语言模型方面的一次新探索。

VITA概览

GPT-4o 卓越的多模态能力和交互式体验强调了它们的必要性 然而,在实际应用中,开源模型很少在这两个方面都表现出色。在本文中,我们 推出 VITA,这是有史以来第一个开源多模态大型语言模型 (MLLM) 专家 同时处理和分析 Video、Image、Text 和 Audio 模态,同时具有先进的多模态 互动体验。

开源 MLLM 特点

Omni 多模态理解:VITA 展示了强大的基础 多语言、视觉和音频理解能力,其强大的性能证明了这一点 在一系列单峰和多峰基准中。

非叫醒交互:VITA 可以激活并响应用户音频 环境中的问题,而无需唤醒词或按钮。

音频中断交互:VITA 能够同时跟踪和过滤 实时外部查询。这允许用户随时中断模型的生成 新问题,VITA 将相应地回复新问题。

VITA 能够处理纯文本/音频形式的输入,以及视频/图像组合 带有文本/音频。此外,采用两种关键技术来推进多模态交互体验。

免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
相关资讯