李开复零一万物公司系列模型:Yi

8 个月前 语言模型 145

“Yi”大模型是由李开复带队创办的 AI2.0 公司零一万物训练的一系列大语言模型。

“yi”系列大模型中的 Yi-34B 表现较为出色。它是一款双语(英文/中文)模型,在多个方面展示出了强大的性能:

性能优势:在 Huggingface 英文开源社区平台和 c-eval 中文评测的最新榜单上取得了多项国际最佳性能指标认可。例如,在 alpaca eval leaderboard 上排名第二(截至 2024 年 1 月数据,仅次于 GPT-4 Turbo),超越了其他语言模型;在各种基准测试中,包括 Hugging face open llm leaderboard(预训练)和 c-eval 等,Yi-34B 预训练模型在英文和中文方面均排名第一,是迄今为止唯一成功登顶 Huggingface 全球开源模型排行榜的国产模型。

长上下文窗口:可支持 200k 超长上下文窗口,能够处理约 40 万汉字的超长文本输入,相比之下,GPT-4 上下文窗口只有 32k,文字处理量约 2.5 万字。这使其在文档摘要、基于文档的问答等下游任务中能发挥关键作用,可应用于法律、财务、传媒、档案整理等诸多垂直场景,成为人们更可靠的 AI 助理,提升生产力。

开源:Yi-34B 的 200k 上下文窗口直接开源,为想要在更长上下文窗口进行微调的开发者提供了更多可能性。

此外,零一万物近期还开源了 yi-vl 多模态大模型。该模型基于开源 llava 架构,具有卓越的图文理解和对话生成能力,在英文数据集 mmmu 和中文数据集 cmmmu 上取得了领先成绩。它包含三个主要模块:用于图像编码的 vision transformer(vit),用于带来图像特征与文本特征空间对齐能力的 projection 模块,以及为其提供强大语言理解和生成能力的 yi-34b-chat 和 yi-6b-chat 大规模语言模型。

2024 年 3 月 14 日,零一万物发布了 Yi 大模型 API 开放平台,为开发者提供服务。其中,yi-34b-chat-0205 支持通用聊天、问答、对话、写作、翻译等功能;yi-34b-chat-200k 模型支持输入 30 万汉字,适合用于多篇文档内容理解、海量数据分析挖掘和跨领域知识融合等。该模型的性能在“大海捞针”测试中从 89.3%提升至 99.8%。其 API 具备较快的推理速度,优化的接口降低了模型回复的延迟,提升了用户体验的流畅性和响应速度。此外,多模态模型 yi-vl-plus 可支持文本、视觉多模态输入,能面向实际应用场景大幅增强 charts、table、inforgraphics、screenshot 识别能力,在一些中文图表理解场景中比 GPT-4V 准确率更高。

零一万物的“yi”系列大模型命名来自“一”的拼音,其中的“y”上下颠倒,形同汉字的“人”,结合 ai 里的 i,代表 human+ai(人类+人工智能),体现了该公司相信 AI 赋能推动人类社会前行,AI 应本着以人为本的精神为人类创造巨大价值的理念。

此前,零一万物曾陷入“抄袭”争议,被指“‘yi’大模型使用了 llama 的架构,只对两个张量进行重命名”。对此,该公司致歉称正在各开源平台重新提交模型及代码并补充 llama 协议副本的流程中,并解释大模型社区在技术架构方面正逐渐往通用化收拢,国际主流大模型基本都基于 transformer 的架构进行部分改动,零一万物在训练模型过程中沿用了 gpt/llama 的基本架构,且从零开始训练了 yi-34b 和 yi-6b 模型。


图片来源: DoNews

相关资讯