李开复零一万物公司系列模型：Yi

管理员 1 年前

语言模型

832

“Yi”大模型是由李开复带队创办的 AI2.0 公司零一万物训练的一系列大语言模型。

“yi”系列大模型中的 Yi-34B 表现较为出色。它是一款双语（英文/中文）模型，在多个方面展示出了强大的性能：

性能优势：在 Huggingface 英文开源社区平台和 c-eval 中文评测的最新榜单上取得了多项国际最佳性能指标认可。例如，在 alpaca eval leaderboard 上排名第二（截至 2024 年 1 月数据，仅次于 GPT-4 Turbo），超越了其他语言模型；在各种基准测试中，包括 Hugging face open llm leaderboard（预训练）和 c-eval 等，Yi-34B 预训练模型在英文和中文方面均排名第一，是迄今为止唯一成功登顶 Huggingface 全球开源模型排行榜的国产模型。

长上下文窗口：可支持 200k 超长上下文窗口，能够处理约 40 万汉字的超长文本输入，相比之下，GPT-4 上下文窗口只有 32k，文字处理量约 2.5 万字。这使其在文档摘要、基于文档的问答等下游任务中能发挥关键作用，可应用于法律、财务、传媒、档案整理等诸多垂直场景，成为人们更可靠的 AI 助理，提升生产力。

开源：Yi-34B 的 200k 上下文窗口直接开源，为想要在更长上下文窗口进行微调的开发者提供了更多可能性。

此外，零一万物近期还开源了 yi-vl 多模态大模型。该模型基于开源 llava 架构，具有卓越的图文理解和对话生成能力，在英文数据集 mmmu 和中文数据集 cmmmu 上取得了领先成绩。它包含三个主要模块：用于图像编码的 vision transformer（vit），用于带来图像特征与文本特征空间对齐能力的 projection 模块，以及为其提供强大语言理解和生成能力的 yi-34b-chat 和 yi-6b-chat 大规模语言模型。

2024 年 3 月 14 日，零一万物发布了 Yi 大模型 API 开放平台，为开发者提供服务。其中，yi-34b-chat-0205 支持通用聊天、问答、对话、写作、翻译等功能；yi-34b-chat-200k 模型支持输入 30 万汉字，适合用于多篇文档内容理解、海量数据分析挖掘和跨领域知识融合等。该模型的性能在“大海捞针”测试中从 89.3%提升至 99.8%。其 API 具备较快的推理速度，优化的接口降低了模型回复的延迟，提升了用户体验的流畅性和响应速度。此外，多模态模型 yi-vl-plus 可支持文本、视觉多模态输入，能面向实际应用场景大幅增强 charts、table、inforgraphics、screenshot 识别能力，在一些中文图表理解场景中比 GPT-4V 准确率更高。

零一万物的“yi”系列大模型命名来自“一”的拼音，其中的“y”上下颠倒，形同汉字的“人”，结合 ai 里的 i，代表 human+ai（人类+人工智能），体现了该公司相信 AI 赋能推动人类社会前行，AI 应本着以人为本的精神为人类创造巨大价值的理念。

此前，零一万物曾陷入“抄袭”争议，被指“‘yi’大模型使用了 llama 的架构，只对两个张量进行重命名”。对此，该公司致歉称正在各开源平台重新提交模型及代码并补充 llama 协议副本的流程中，并解释大模型社区在技术架构方面正逐渐往通用化收拢，国际主流大模型基本都基于 transformer 的架构进行部分改动，零一万物在训练模型过程中沿用了 gpt/llama 的基本架构，且从零开始训练了 yi-34b 和 yi-6b 模型。

图片来源: DoNews

语言模型大模型零一万物 Yi