上海AI实验室出品:书生·浦语(InternLM)

9 个月前 语言模型 96

书生·浦语(InternLM)是上海人工智能实验室(上海 AI 实验室)、商汤科技联合香港中文大学、复旦大学及上海交通大学于 2023 年 6 月 7 日发布的千亿级参数大语言模型。它具有 1040 亿参数,是在包含 1.6 万亿 token 的多语种高质量数据集上训练而成。

2024 年 1 月 17 日,上述团队发布了新一代大语言模型书生·浦语 2.0(InternLM2)。该模型沿袭第一代设定,包含 7b 及 20b 两种参数规格及基座、对话等版本,其核心理念在于回归语言建模的本质,致力于通过提高语料质量及信息密度,实现模型基座语言建模能力获得质的提升,进而在数理、代码、对话、创作等各方面都取得长足进步,综合性能达到同量级开源模型的领先水平。

书生·浦语大模型具有以下特点和优势:

  • 多语言能力:具备多种语言的理解和表达能力,尤其能熟练使用中英双语,在中文和英文的多种客观评测上都强于社区开源模型。
  • 优秀的推理能力:通过在不同来源的数据以及精选高质量数据上进行训练,在逻辑推理、代码生成以及复杂指令跟随等方面表现出色。
  • 考试能力强:在 MMLU、C-Eval 等考试评测集上性能优异,特别是在各项中文考试中获得了超越 ChatGPT 的分数。
  • 长语境支持:书生·浦语 2.0 支持 200k 超长上下文长语境输入及理解能力,能够显著拓展大模型的应用场景,比如支持大型文档的处理、复杂的推理演算和实际场景的工具调用等。它能够一次性接受并处理约 30 万汉字(约五六百页的文档)的输入内容,准确提取关键信息。
  • 综合能力全面进步:相较于初代书生·浦语,书生·浦语 2.0 在推理、数学、代码等方面的能力提升显著。根据定义的语言、知识、推理、数学、代码、考试等六个能力维度,在 55 个主流评测集上的综合评测结果显示,其轻量级(7b)及中量级(20b)版本性能在同量级模型中表现优异。
  • 良好的对话及创作体验:可以精准地理解和遵循用户意图,具备较强的共情能力和丰富的结构化创作能力。
  • 数理推理能力提升:形成了较强的内生计算能力,在不依靠计算器等外部工具的情况下,在 100 以内的简单数学运算上能够做到接近 100%的准确率,在 1000 以内达到 80%左右的运算准确率。在 GSM8K 和 Math 评测中,其表现超过了 ChatGPT(GPT-3.5)。它还可借助代码解释器编写代码进行计算,或对推理的结果进行形式化验证,从而解决计算要求更高或者演算过程更加复杂的问题。配合代码解释器,在典型的数学评测集 GSM8K 和 Math 上取得了更高的评测分数,对于难度更高的 Math 数据集,计算精度大幅提升,甚至超过了 GPT-4 的表现。

该大模型具有广泛的应用领域,包括但不限于:

  • 教育领域:可作为智能教学助手,帮助学生提高学习效率,辅助教师进行教学评估。
  • 翻译领域:实现多语种之间的翻译,助力跨国交流和文化传播。
  • 智能客服领域:实现自然语言理解和生成,为用户提供更加便捷和高效的服务。
  • 自然语言生成、情感分析、文本摘要等领域:为各种实际应用场景提供强大的技术支持。

其发展历程如下:

  • 2023 年 6 月 7 日,发布千亿级参数大语言模型书生·浦语。
  • 2023 年 7 月 6 日,书生·浦语千亿参数大模型全面升级,支持 8k 语境、26 种语言。
  • 2023 年 8 月 14 日,书生·万卷 1.0 多模态预训练语料库开源发布。
  • 2023 年 8 月 21 日,书生·浦语升级版对话模型 internlm-chat-7b、书生·浦语 v1.1 发布,开源智能体框架 lagent 支持从语言模型到智能体升级转换。
  • 2023 年 8 月 28 日,书生·浦语千亿参数模型参数量升级至 123b。
  • 2023 年 9 月 20 日,正式推出书生·浦语大模型 200 亿参数版本 internlm-20b,并在阿里云魔搭社区开源首发。同时,书生·浦语面向大模型研发与应用的全链条工具链全线升级,与 internlm-20b 一同继续全面开放,向企业和开发者提供免费商用授权。
  • 2024 年 1 月 17 日,发布新一代大语言模型书生·浦语 2.0(internlm2)。之后推出全面升级的图文混合创作大模型书生·浦语灵笔 2.0(internlm-xcomposer2)。
  • 2024 年 1 月 23 日,开源发布新一代数学模型书生·浦语数学(internlm2-math)。
  • 2024 年 6 月 4 日,书生·浦语 2.0 系列文曲星大语言模型开源。高考结束后,在上海推出的大模型开源开放评测体系“司南”选取的开源模型及 GPT-4o 进行高考“语数外”全卷能力测试中,书生·浦语 2.0 系列文曲星大语言模型参与测试且获第三名。

来源:豆包AI

相关资讯