NSA - AI平台 | AI工具集｜AI资讯站

原生稀疏注意力机制: Native Sparse Attention (NSA）
DeepSeek提出的原生稀疏注意力机制（Native Sparse Attention, NSA）是一种针对Transformer模型注意力计算的高效优化技术，旨在降低计算复杂度的同时保持模型性能，
1 年前