Meta推出开源大模型：Llama3.1

10 个月前语言模型 147

Llama 是 Meta 开发的一系列语言模型。以下是关于 Llama 的一些重要信息：

Llama 3.1：

当地时间 2024 年 7 月 23 日，Meta 开源了 Llama 3.1。它拥有三个版本，包括 80 亿（8b）、700 亿（70b）、4050 亿（405b）参数版本。其中 4050 亿参数的版本是目前开源模型中规模较大的。
在性能方面，Meta 称其在多项基准测试中优于 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet。例如在通用性能、长文本处理与多语言处理等多个方面表现优异，在 zeroscrolls 项目测试中得分领先。它支持多种语言（英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语），可以进行八种语言的对话，编写更高质量的计算机代码，并能解决更复杂的数学问题。但在某些测试（如多项 MMLU 测试和 GPQA 测试等）中也落后于 GPT-4o。
该模型采用了密集 Transformer 架构，具有 128K 的上下文窗口，这意味着它一次性可以处理的文本数量高达 9.6 万字，能更好地理解上下文，并处理长文本和短文本。
Llama 3.1 使用了约 15T 的多语言 token，其训练规模是 Llama 2 的 50 倍，模型参数和训练计算量均大幅增加。它选择标准的密集 Transformer 架构，而非混合专家模型，以确保训练的稳定性。
目前，Llama 3.1 并不支持多模态（图像、视频或语音处理），但 Meta 正在致力于为该模型添加这些功能，具有相关功能的版本仍在积极开发中。

Meta 开源 Llama 3.1 旨在创建一个生态系统，使 Llama 有机会成为开源 AI 的行业标准。目前，包括 Amazon、Databricks、英伟达等在内的众多公司已与 Meta 达成合作，来支持开发人员微调和“蒸馏”自己的模型。云厂商也准备好云上部署 Llama 3.1。

Llama 家族的其他版本：