蚂蚁集团百灵大模型HI

8 个月前 语言模型 2108


百灵大模型是蚂蚁集团自研的大模型。2024年7月5日,在世界人工智能大会“可信大模型助力产业创新发展”论坛上,蚂蚁集团公布了百灵大模型的最新研发进展:它已具备能“看”会“听”、能“说”会“画”的原生多模态能力,可以直接理解并训练音频、视频、图、文等多模态数据。

原生多模态被认为是通往通用人工智能(AGI)的必经之路,目前在国内只有为数不多的大模型厂商实现了这一能力。百灵大模型的多模态能力在中文图文理解 mmbench-cn 评测集上达到 GPT-4o 水平,在信通院多模态安全能力评测达到优秀级(最高),具备支持规模化应用的能力,能支持 AIGC、图文对话、视频理解、数字人等一系列下游任务。

其多模态能力已被应用在生活服务、搜索推荐、互动娱乐等场景中。例如:

生活服务:使用多模态模型实现了 ACT 技术,让智能体具备一定规划执行能力,可根据用户语音指定直接在星巴克小程序下单咖啡。目前 “支付宝智能助理” 已上线 “AI 点单” 功能,首批支持星巴克、瑞幸、霸王茶姬、蜜雪冰城等多个茶饮品牌的支付宝小程序。

医疗领域:能够对超过 100 多种复杂的医学检验检测报告进行识别和解读,还可以检测毛发健康和脱发情况,为治疗提供辅助。基于百灵大模型多模态能力研发的 “支付宝多模态医疗大模型” 添加了包含报告、影像、药品等多模态信息在内的百亿级中英文图文、千亿级医疗文本语料以及千万级高质量医疗知识图谱,具备专业医学知识,在中文医疗 LLM 评测榜单 promptcblue 上取得 A 榜第一、B 榜第二的成绩,可提供智能问答、病历结构化和检索、辅助诊断等功能,还能识别解读药品及多种复杂医学报告,进行毛发健康检测等,嵌入医院等机构医疗环节全流程。

此外,由蚂蚁集团与武汉大学联合研发的遥感模型 Skysense 也是基于百灵大模型多模态能力开发的。Skysense 是目前参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。

多模态大模型技术能够使 AI 更好地理解人类世界的复杂信息,也让 AI 落地应用时更符合人类的交互习惯,在智能客服、自动驾驶、医疗诊断等多个领域展现出巨大的应用潜力。


资讯来源:豆包AI

相关资讯