• 正文
    • 问题与挑战
    • 创新路径deep
    • 性能优化
    • 意义与影响
    • 总结
  • 相关推荐
申请入驻 产业图谱

爆点透析:DeepSeek最新论文

02/20 16:03
1434
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

2025年2月18日,DeepSeek发布了最新的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》,这一创新成果迅速引发了科技圈的广泛关注。

问题与挑战

论文的核心内容围绕一种全新的稀疏注意力机制——NSA(Native Sparse Attention)展开。随着大语言模型(LLM)的快速发展,处理长文本的能力已成为衡量模型性能的重要指标之一。然而,传统LLM采用的“全注意力”机制在处理长文本时计算成本过高,因为需要计算每个词与其他所有词之间的关系,从而导致高延迟和高能耗。

尽管稀疏注意力机制作为一种减少计算量的方法被广泛应用,但现有的稀疏注意力机制在训练端效果不佳,且难以同时提升推理效率和模型性能。

创新路径deep

NSA机制正是为了解决这一问题而诞生的。它具有硬件对齐和本地可训练的特性,通过优化设计,显著提升了大模型训练和推理的效率,同时降低了对硬件的要求。

图:NSA架构概述。左:该框架通过三个并行的注意力分支处理输入序列:对于给定的查询,前面的键和值被处理为粗粒度模式的压缩注意力、重要令牌块的选定注意力和局部上下文的滑动注意力。右图:每个分支产生的不同注意力模式的可视化。绿色区域表示需要计算注意力得分的区域,而白色区域表示可以跳过的区域。

NSA机制提出了“三合一”的注意力处理路径,具体包括:

粗粒度的token压缩(Compression):保留粗颗粒度的token模块,将长文本分成多个块,并用机器学习模型提取每个块的摘要,从而减少计算量。

细粒度的token选择(Selection):通过引入query token(qt),筛选出与当前计算token相关性最高的模块,并只计算这些块的详细信息,进一步提高计算效率。

滑动窗口(Sliding Window):获取局部最近的完整token序列,补充上下文信息,确保模型的准确性和完整性。

性能优化

NSA注意力机制还通过硬件优化来进一步提升性能。它通过将数据按连续块加载到GPU的内存中,减少随机访问的开销,实现分块内存访问。在解码阶段,令多个注意力头共享相同的键值缓存,降低内存带宽需求。而在训练阶段,直接引入稀疏性,确保模型学会如何有效利用稀疏结构,实现端到端训练。

实测结果显示,在解码速度上,NSA提升了11.6倍,正向和反向传播阶段分别提速9倍和6倍。在基准测试中,NSA的表现与完全注意力机制相当甚至更好,尤其是在长上下文任务和推理任务中。

图:全注意力模型和我们的NSA之间的性能和效率比较。左:尽管数量稀少,但NSA在一般基准测试、长上下文任务和推理评估中平均超过了全注意力基线。右:对于64k长度的序列处理,与Full Attention相比,NSA在所有阶段(解码、前向传播和后向传播)都实现了显著的计算速度提升。

此外,NSA机制还通过硬件对齐系统和训练感知设计,支持高效部署和端到端训练。论文中提到的Triton框架支持多种GPU平台(如CUDA、ROCm、CANN),为国产化算力提供了可能性。

NSA的内核设计。内核按GQA组加载查询(网格循环),获取相应的稀疏KV块(内环),并在SRAM上执行注意力计算。绿色块表示SRAM上的数据,蓝色块表示HBM上的数据。

意义与影响

NSA注意力机制的提出,解决了稀疏注意力机制在实际应用中的两大难题:推理效率和训练支持。这一成果证明了稀疏注意力不仅可以用于推理阶段,还可以用于训练阶段,为下一代低功耗、高吞吐的LLM部署提供了关键技术基础。同时,NSA降低了对GPU显存和卡间通信能力的要求,可能缓解国产大模型在GPU芯片上的依赖,推动AI算力需求的发展。

基于Triton的NSA内核与基于Triton FlashAttention-2内核的比较。DeepSeek的实现显著降低了所有上下文长度的延迟,随着输入长度的增加,这种改善变得更加明显。

总结

DeepSeek的这篇最新论文提出了一种创新的稀疏注意力机制NSA,通过动态分层稀疏策略、粗粒度的token压缩和细粒度的token选择,以及硬件优化等方法,显著提升了LLM处理长文本时的推理速度和训练效率。该论文不仅展示了DeepSeek在注意力机制上的创新实力,也为大模型的高效训练和推理提供了新的解决方案,具有重要的学术和产业价值。

点赞
收藏
评论
分享
加入交流群
举报

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录