Meta推出开源大模型:Llama3.1

9 个月前 语言模型 130

Llama 是 Meta 开发的一系列语言模型。以下是关于 Llama 的一些重要信息:

Llama 3.1:

  • 当地时间 2024 年 7 月 23 日,Meta 开源了 Llama 3.1。它拥有三个版本,包括 80 亿(8b)、700 亿(70b)、4050 亿(405b)参数版本。其中 4050 亿参数的版本是目前开源模型中规模较大的。
  • 在性能方面,Meta 称其在多项基准测试中优于 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet。例如在通用性能、长文本处理与多语言处理等多个方面表现优异,在 zeroscrolls 项目测试中得分领先。它支持多种语言(英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语),可以进行八种语言的对话,编写更高质量的计算机代码,并能解决更复杂的数学问题。但在某些测试(如多项 MMLU 测试和 GPQA 测试等)中也落后于 GPT-4o。
  • 该模型采用了密集 Transformer 架构,具有 128K 的上下文窗口,这意味着它一次性可以处理的文本数量高达 9.6 万字,能更好地理解上下文,并处理长文本和短文本。
  • Llama 3.1 使用了约 15T 的多语言 token,其训练规模是 Llama 2 的 50 倍,模型参数和训练计算量均大幅增加。它选择标准的密集 Transformer 架构,而非混合专家模型,以确保训练的稳定性。
  • 目前,Llama 3.1 并不支持多模态(图像、视频或语音处理),但 Meta 正在致力于为该模型添加这些功能,具有相关功能的版本仍在积极开发中。

Meta 开源 Llama 3.1 旨在创建一个生态系统,使 Llama 有机会成为开源 AI 的行业标准。目前,包括 Amazon、Databricks、英伟达等在内的众多公司已与 Meta 达成合作,来支持开发人员微调和“蒸馏”自己的模型。云厂商也准备好云上部署 Llama 3.1。

Llama 家族的其他版本:

  • Llama 2:于 2023 年 7 月发布,其训练数据来自开放的互联网数据。参数规模包括 70 亿、130 亿、340 亿和 700 亿等版本。
  • Llama 1:据 Meta 创始人扎克伯格透露,Llama 1 已经可以与 OpenAI 的 ChatGPT 和谷歌的 Bard 聊天机器人的模型竞争。

Llama 模型的开源促进了大模型技术的发展。其不同版本在参数规模、性能和功能上有所差异,为开发者和研究人员提供了更多选择和应用的可能性。但需要注意的是

相关资讯