GPT-4o mini:OpenAI推进具有成本效益的智能

9 个月前 语言模型 77

2024年7月18日, 美国OpenAI公司撰文:

OpenAI 致力于让智能尽可能广泛地获得。今天,我们宣布推出 GPT-4o mini,这是我们最具成本效益的小型模型。我们预计 GPT-4o mini 将通过使智能更实惠来显着扩展使用 AI 构建的应用程序范围。GPT-4o mini 在 MMLU 上得分为 82%,目前表现优于 GPT-41在聊天首选项上LMSYS 排行榜(在新窗口中打开).它的价格为每百万输入代币 15 美分和每百万输出代币 60 美分,比以前的前沿模型便宜一个数量级,比 GPT-3.5 Turbo 便宜 60% 以上。

GPT-4o mini 以其低成本和低延迟支持广泛的任务,例如链接或并行化多个模型调用(例如,调用多个 API)、将大量上下文传递给模型(例如,完整的代码库或对话历史记录)或通过快速、实时的文本响应(例如,客户支持聊天机器人)与客户交互。

如今,GPT-4o mini 在 API 中支持文本和视觉,未来将支持文本、图像、视频和音频输入和输出。该模型具有 128K 个令牌的上下文窗口,每个请求最多支持 16K 个输出令牌,并且具有截至 2023 年 10 月的知识。由于与 GPT-4o 共享的改进分词器,处理非英语文本现在更具成本效益。

具有卓越文本智能和多模态推理的小型模型

GPT-4o mini 在文本智能和多模态推理的学术基准上都超过了 GPT-3.5 Turbo 和其他小型模型,并支持与 GPT-4o 相同的语言范围。它还在函数调用方面表现出强大的性能,可以使开发人员能够构建获取数据或对外部系统执行操作的应用程序,并且与 GPT-3.5 Turbo 相比,它提高了长上下文性能。

GPT-4o mini 已通过多个关键基准测试进行评估.

推理任务:GPT-4o mini 在涉及文本和视觉的推理任务方面优于其他小型模型,在文本智能和推理基准 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。

数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,优于市场上以前的小型模型。在衡量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。GPT-4o mini 在衡量编码性能的 HumanEval 上得分为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。

多模态推理:GPT-4o mini 在多模态推理评估 MMMU 上也表现出强劲的表现,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。

模型评估分数

作为模型开发过程的一部分,我们与一些值得信赖的合作伙伴合作,以更好地了解 GPT-4o mini 的用例和局限性。我们与以下公司合作坡道(在新窗口中打开)和超人(在新窗口中打开)他们发现 GPT-4o mini 在从接收文件中提取结构化数据或在提供线程历史记录时生成高质量的电子邮件回复等任务中的表现明显优于 GPT-3.5 Turbo。

内置安全措施

安全性从一开始就包含在我们的模型中,并在我们开发过程的每一步都得到加强。在预培训中,我们过滤掉(在新窗口中打开) 我们不希望模型从中学习或输出的信息,例如仇恨言论、成人内容、主要汇总个人信息的网站和垃圾邮件。在训练后,我们使用人工反馈强化学习 (RLHF) 等技术将模型的行为与我们的策略保持一致,以提高模型响应的准确性和可靠性。

GPT-4o mini 内置了与 GPT-4o 相同的安全缓解措施,我们根据我们的准备框架并符合我们的自愿承诺,使用自动和人工评估对其进行了仔细评估。超过 70 位社会心理学和错误信息等领域的外部专家对 GPT-4o 进行了测试,以识别潜在风险,我们已经解决了这些问题,并计划在即将推出的 GPT-4o 系统卡和准备记分卡中分享详细信息。这些专家评估的见解有助于提高 GPT-4o 和 GPT-4o mini 的安全性。

在这些经验的基础上,我们的团队还致力于使用我们研究的新技术来提高 GPT-4o mini 的安全性。API 中的 GPT-4o mini 是第一个应用我们的模型指令层次结构(在新窗口中打开)方法,有助于提高模型抵抗越狱、提示注入和系统提示提取的能力。这使得模型的响应更加可靠,并有助于使其在大规模应用中使用更安全。

我们将继续监控 GPT-4o mini 的使用情况,并在识别新风险时提高模型的安全性。

定价

GPT-4o mini 现在可在 Assistants API、Chat Completions API 和 Batch API 中作为文本和视觉模型使用。开发人员每 1M 输入代币支付 15 美分,每 1M 输出代币支付 60 美分(大约相当于一本标准书中的 2500 页)。我们计划在未来几天内推出 GPT-4o mini 的微调。

在 ChatGPT 中,Free、Plus 和 Team 用户将从今天开始访问 GPT-4o mini,而不是 GPT-3.5。从下周开始,企业用户也将可以访问,这符合我们的使命,即让所有人都能享受人工智能的好处。

后续步骤

在过去的几年里,我们见证了人工智能的显著进步以及成本的大幅降低。例如,自 2022 年推出功能较弱的模型 text-davinci-003 以来,GPT-4o mini 的每个代币成本下降了 99%。我们致力于继续保持这种降低成本的轨迹,同时增强模型功能。

我们憧憬着一个未来,模型可以无缝集成到每个应用程序和每个网站上。GPT-4o mini 正在为开发人员更高效、更经济地构建和扩展强大的 AI 应用程序铺平道路。人工智能的未来正变得越来越容易获得、更可靠,并嵌入到我们的日常数字体验中,我们很高兴能继续引领潮流。


资讯来源:OpenAI

相关资讯