Inception Labs 推出第一个基于 Diffusion 的商业语言模型：Mercury

管理员 1 年前

语言模型

1759

由斯坦福大学教授 Stefano Ermon 创立的初创公司 Inception Labs 推出了 Mercury Coder，这是第一个大规模基于扩散的语言模型（dLLM）。与按顺序生成文本的传统大型语言模型（LLM）不同，Mercury Coder 使用扩散方法同时处理整个序列，类似于 AI 图像和视频生成。结果：该模型声称比现有模型快十倍，运行成本也明显降低。

产品要点：

Mercury Coder 是第一个基于扩散的大型语言模型（dLLM），它使用粗到细的方法生成文本，而不是按顺序预测标记。
它的速度比传统 LLM 快 10 倍，在 NVIDIA H100 GPU 上每秒生成超过 1000 个Token。
早期的基准测试表明，Mercury Coder 可与 GPT-4o Mini 和 Claude 3.5 Haiku 等模型相媲美，同时更具成本效益。
该模型基于斯坦福大学教授 Stefano Ermon 的研究，使用了一种不同的方法——从文本的粗略估计开始，然后并行进行提炼，类似于 Midjourney 和 OpenAI 的 Sora 等 AI 图像和视频生成器的运行方式。

据 Inception Labs 称，Mercury Coder 不仅与众不同，而且速度要快得多。该公司声称该模型可以在 NVIDIA H100 上每秒生成超过 1000 个Token，这种速度通常需要 Groq 或 Cerebras 等专用硬件加速器。该方法还降低了计算成本，使其成为希望优化 AI 基础设施的企业的一个引人注目的选择。

早期基准测试表明，Mercury Coder 的性能可与领先的 LLM 相媲美。在头对头编码评估中，该模型与速度优化模型（如 OpenAI 的 GPT-4o Mini 和 Anthropic的 Claude 3.5 Haiku）相当或优于速度优化模型，同时运行延迟仅为其一小部分。如果这些结果在实际应用中是一致的，那么 dLLM 可以提供传统 LLM 的可行替代方案，尤其是在需要高速响应的场景中，例如客户支持、代码生成和企业自动化。