DeepSeek发表新论文：原生稀疏注意力机制 NSA

管理员 1 年前

国内

760

DeepSeek团队近日发布了一篇题为《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》的技术论文，介绍了他们提出的NSA（Natively Sparse Attention）机制。

NSA结合了算法创新和硬件优化，旨在实现高效的长文本建模。其核心创新包括：

动态分层稀疏策略，结合粗粒度的令牌压缩与细粒度的令牌选择，以保留全局上下文信息和局部精度；
通过平衡算术强度的算法设计和现代硬件优化，显著加速计算；
支持端到端训练，减少预训练计算成本，同时保持模型性能。

实验结果表明，NSA在长文本任务和指令推理等领域表现优异，尤其在64k长度的序列处理中，实现了解码、前向传播和反向传播的显著加速。

(腾讯新闻)

相关网站

DeepSeek OCR

上下文光学压缩语言模型

DeepClaude

结合 DeepSeek R1 的推理功能和 Claude 的代码生成功能

DeepSeek Artifacts

DeepSeek Artifacts

App无代码开发工具

DeepSeek

最好用价格最低的语言大模型

司马阅 DocMind

智能文档处理工具

OpenMax

人类 × 智能体协作平台

Agency-Agents

专业化多智能体角色库

万小智

阿里云AI员工

相关资讯