一、市场热点 DeepSeek:推出一种全新注意力机制NSA ◇驱动:2025年2月18日盘后消息,DeepSeek官方发布了一篇关于NSA的纯技术论文报告,使用NSA预训练的模型超过了全注意力模型。 ◇NSA介绍:是一种与硬件高度适配并可原生训练的稀疏注意力机制,专为超快长上下文训练与推理设计。核心组成包括动态分层稀疏策略、粗粒度的token压缩、细粒度的token选择。 ◇NSA效果:通过针对现代硬件的优化设计,NSA在保证性能的同时显著提升了推理速度,并有效降低了预训练成本。在通用基准测试