跳轉至

登入訂閱

科技 — AI

梁文鋒攜DeepSeek團隊丟出注意力新機制重磅論文

, and Kayson Chow

2/19/2025 . 9:27 AM

7 已閱

目錄

就在馬斯克發佈grok3，sam altman 還在猶豫要不要開源時，剛剛梁文鋒作為co-authors攜deepseek研究團隊丟出重磅研究論文成果，DeepSeek 發佈了最新的研究成果——原生稀疏注意力（Native Sparse Attention, NSA）！這項技術有望大幅提升下一代大語言模型處理長文本的能力，同時還能兼顧效率，可謂是 LLM 領域又一里程碑式的進展！

簡單來説，論文的核心貢獻如下：

LLM 長文本能力再突破！DeepSeek 發佈原生稀疏注意力 NSA：硬件友好又高效，訓推一體化！

廢話不多説，我們一起來扒一扒這篇論文：

先了解一下論文的背景

近年來，我們見證了長文本建模在 AI 領域的重要性日益凸顯。無論是深度推理、代碼庫生成、還是多輪對話，都離不開模型對長序列信息的有效處理能力。像 OpenAI 的 o-series 模型、DeepSeek-R1、以及 Google Gemini 1.5 Pro 等，都展現了處理超長文本的強大潛力。

然而，傳統 Attention 機制的計算複雜度隨着序列長度的增加而呈平方級增長，這成為了制約 LLM 發展的關鍵瓶頸。計算成本高昂，延遲成為問題，如何在保證模型性能的同時，提升長文本處理的效率，成為了亟待解決的難題

稀疏注意力應運而生，它被認為是提升效率，同時維持模型能力的有希望的方向。DeepSeek 的 NSA 技術正是在這個方向上邁出了重要一步！

DeepSeek NSA：原生稀疏注意力，訓推一體化，硬件友好

DeepSeek 提出的 NSA (Native Sparse Attention，原生稀疏注意力) 機制，巧妙地將算法創新與硬件優化相結合，旨在實現高效的長文本建模。

NSA 的核心亮點可以概括為以下兩點：

1.動態分層稀疏策略： NSA 採用了一種動態分層的稀疏策略，結合了粗粒度的 Token 壓縮 和細粒度的 Token 選擇。這種策略既能保證模型對全局上下文的感知，又能兼顧局部信息的精確性

2.兩大關鍵創新：

算術強度平衡的算法設計與硬件優化： NSA 通過精巧的算法設計，並針對現代硬件進行了實現優化，顯著提升了計算速度

端到端可訓練： NSA 支持端到端訓練，這意味着它不僅在推理階段高效，還能減少預訓練的計算量，同時不犧牲模型性能！

💪實驗效果驚豔：性能不降反升，速度大幅提升！

實驗結果令人振奮！如圖 1 所示，在通用基準測試、長文本任務和指令推理方面，使用 NSA 預訓練的模型性能不僅沒有下降，反而超越了 Full Attention 模型！

更重要的是，在處理 64k 長度的序列時，NSA 在解碼、前向傳播和反向傳播等各個階段都實現了顯著的速度提升，最高可達 11.6 倍！這充分證明了 NSA 在模型生命週期各個階段的效率優勢

🤔 現有稀疏注意力方法的侷限性

論文也深入分析了現有稀疏注意力方法的侷限性，主要體現在兩個方面：

1.推理效率的“假象”： 很多方法雖然在理論上實現了稀疏計算，但在實際推理延遲方面提升有限。這主要是因為：

• 階段限制的稀疏性： 例如，有些方法只在自迴歸解碼時應用稀疏性，但在預填充階段仍然需要大量計算

• 與先進 Attention 架構的不兼容性： 一些稀疏注意力方法難以適配像 MQA 和 GQA 這樣的現代高效解碼架構，導致內存訪問瓶頸依然存在

2.可訓練稀疏性的“神話”： 許多方法主要關注推理階段的稀疏性，而忽略了訓練階段。這導致：

• 性能退化： 後驗應用稀疏性可能導致模型偏離預訓練的優化軌跡。

• 訓練效率需求： 長序列訓練對於提升模型能力至關重要，但現有方法在訓練效率方面存在不足。

• 不可訓練的組件： 一些方法引入了不可微的離散操作，阻礙了梯度傳播，限制了模型學習最佳稀疏模式的能力。

• 反向傳播效率低下： 一些理論上可訓練的方法，在實際訓練中效率低下，例如 Token 粒度的選擇策略可能導致非連續的內存訪問，影響硬件利用率。

🧩 NSA 的核心元件：分層稀疏，逐層最佳化

為了克服上述侷限性，NSA 架構採用了分層 Token 建模，並通過三個並行的注意力分支處理輸入序列：

1. 壓縮注意力 (Compressed Attention)： 處理粗粒度的模式，通過壓縮 Token 塊來捕獲全局信息。

2. 選擇注意力 (Selected Attention)： 處理重要的 Token 塊，選擇性地保留細粒度的信息。

3. 滑動窗口注意力 (Sliding Window Attention)： 處理局部上下文信息。

這三個分支的輸出通過一個門控機制進行聚合。為了最大化效率，NSA 還專門設計了硬件優化的 Kernel

寫在最後：

DeepSeek 的 NSA 技術為長文本建模帶來了新的突破。它不僅在性能上超越了傳統的 Full Attention 模型，更在效率方面實現了顯著的提升，尤其是在長序列場景下。NSA 的硬件友好設計和訓推一體化特性，使其在實際應用中更具優勢，有望加速下一代 LLM 在長文本處理領域的應用落地。

這項研究無疑為稀疏注意力領域帶來了新的思路和方向。未來，我們期待看到更多基於 NSA 技術的創新應用，共同推動 AI 技術的進步！

参考：

https://arxiv.org/pdf/2502.11089

最新

中國人大：區塊鏈技術已在16個黨部和27家央企落地應用，"十四五"科技戰略全面啓動！

7X24小時

中國人大：區塊鏈技術已在16個黨部和27家央企落地應用，"十四五"科技戰略全面啓動！

, and Kayson Chow

3/6/2026

支付會員公開

IVE 安兪真拒收「ChatGPT 情書」，引發熱議：生成式 AI 如何重塑人類表達方式？

7X24小時

IVE 安兪真拒收「ChatGPT 情書」，引發熱議：生成式 AI 如何重塑人類表達方式？

, and Kayson Chow

3/6/2026

支付會員公開

"2026年：澳洲經濟新機遇？經濟學博士深度解析AI如何推動鋰與稀土需求，吸引百萬關注"

7X24小時

"2026年：澳洲經濟新機遇？經濟學博士深度解析AI如何推動鋰與稀土需求，吸引百萬關注"

, and Kayson Chow

3/6/2026

支付會員公開

波克夏重啓股票回購計劃，接班人Abel承諾每年將薪水全數投資於公司股票！

监管

波克夏重啓股票回購計劃，接班人Abel承諾每年將薪水全數投資於公司股票！

, and Kayson Chow

3/6/2026

支付會員公開