How does DeepSeek Sparse Attention (DSA) work in plain English?

DSA narrows attention to the tokens that matter—mostly nearby text, a few global anchors, plus a short list of high-signal picks. Instead of O(L²) comparisons, it runs O(Lk), keeping quality by preserving structure while cutting compute.

Is DSA better than chunking or retrieval for long context?

DSA keeps everything in one thread while focusing compute where it counts; chunking creates cliffs and retrieval can be forgetful. The best setups mix retrieval for fetching with DSA for reasoning across long context without the quadratic tax.

Will DSA hurt model quality compared to dense attention?

If you train and serve with sparsity in mind (and set k sanely), quality holds up—often better for long contexts because the model isn’t drowning in low-value pairs. Serve-sparse on dense-trained weights can drift, so benchmark with real prompts.

What workloads benefit most from DSA?

Long-context document Q&A, codebase navigation, and agent scratchpads. Anywhere sequence length balloons and dense attention turns into latency, memory pressure, and rising costs.

Does vLLM support DSA for deployment?

Yes—recent posts show vLLM integrating support for DeepSeek’s fine-grained sparse attention, with kernel and scheduler work to make it practical in production pipelines.

稀疏注意力，但思維並不稀疏

關於「革命性」注意力機制，大家都會點頭如搗蒜，彷彿在看魔術師表演，然後默默希望沒人請他們解釋其中的奧妙。DeepSeek Sparse Attention (DSA) 就是其中一種魔術——巧妙、快速，而且如果你仔細研究細節，其實不用啃一百頁的數學也能理解。它的承諾是：保留智慧，擺脫計算稅。現實情況是：這取決於情況，但這次的權衡看起來異常合理。

讓我們直接切入重點：DSA 是一種讓大型語言模型只關注重要內容的方式。不是有點像，也不是「可能相關」。它是一種精細的稀疏注意力機制，可以修剪完整自注意力產生的二次方爆炸——而不會鋸掉模型所站立的分支。如果舊模型的注意力是一個房間，每個詞都必須與其他每個詞進行眼神交流，那麼 DSA 會將其變成一個內向者可以茁壯成長的派對：直接路線、更少無意義的閒聊繞道，以及更少的噪音。

什麼是 DeepSeek Sparse Attention？

DSA 是一種稀疏注意力機制，可將自注意力的計算複雜度從 O(L²) 降低到 O(Lk)，其中 L 是序列長度，k 是每個 token 保留的連接數——選定的、可能相關的鄰居。這就是一句話的重點。少一點數學，多一點意義：DSA 不是讓每個 token 將自己與其他每個 token 進行比較，而是選擇一個子集——鄰居、head、窗口、「錨點」，無論哪種啟發式或學習策略對模型來說最有意義——這樣你就不會浪費時間在無意義的事情上。

如果你覺得這聽起來很熟悉，那是因為它的確如此：稀疏注意力並不新鮮。我們已經有了 Longformer、BigBird、block-sparse kernels 和十幾個「局部 + 全局」混合模型。通常的問題是，稀疏模式要么會洩漏recall（它們錯過了大海撈針），要么它們的實現效率非常低，以至於你理論上節省的任何東西都會以 kernel overhead 的形式重新出現。DSA 的成名之處有兩點：首先，稀疏模式比一般的塊稀疏性更精細和自適應；其次，它已經以端到端的方式實現，可以在真實的推理堆疊上實際工作——包括 vLLM。

直覺：閃電索引器，而非割草機

我見過最有幫助的類比：DSA 的作用就像一個閃電索引器。它不會修剪整個田野；它會衝向重要的東西——就像一個好的編輯劃掉三個段落，只留下那個精彩的句子。該系統為每個 token 保留一小組高訊號連接——可以理解為按相關性得分排序的 top-k——加上一個薄弱的結構骨幹（局部窗口、週期性全局 token），因此長程連貫性不會變成一團糟。

工程師關心類比之後的部分：「相關性」在操作上是什麼意思？不同的 DSA 寫作暗示了通過接近度和先前重要性選擇候選鍵的啟發式方法，然後在這些候選鍵之間進行緊湊的注意力計算。這不是魔法；這是分類。你保留了顯而易見的鄰居（局部上下文對於語言幾乎總是有用），加入全局「地標」，並有選擇地將注意力路由到有希望的窗口外 token。最終效果：你縮小了搜索空間，而不會削弱 recall。如果做得正確，這感覺不像修剪，而更像是一種良好的禮儀。

數學，極簡版

完整自注意力：O(L²d)，其中 d 是 head 維度。

DSA：O(Lkd)。對於固定的 k，它在 L 中呈線性關係。這對於長上下文很重要。在 128K token 時，你的 GPU 帳單會感謝你。

該模型為每個 token 維護一個動態候選集。你需要為候選選擇以及它們之間的實際注意力付費。如果候選選擇是向量化的並且具有緩存意識，你就會獲勝；如果不是，你就是在擠一個氣球。

這就是所有稀疏方法中的緊張關係：減少漸近性，但不要在你的數據移動和 kernel 啟動 overhead 中重新引入它。圍繞 DSA 的實現強調 kernel 層級的支援和排程器集成，並且最近的帖子顯示 vLLM 支援的落地正是為了在部署設定中實現這一點。

為什麼 DSA 現在很重要？

因為長上下文是新的螢幕尺寸之戰。每個人都想要 200K token 以上——腳本、代碼庫、你的良心大小的 PDF。在這些長度上進行二次方注意力對於延遲、吞吐量和成本來說是不可接受的。你可以通過巧妙的 chunking 和檢索來偽造它，但這就像在你的車裡安裝一個書架，因為你的後車廂不斷被填滿。DSA 的論點更簡單：使實際的注意力步驟不要愚蠢地昂貴。

一個額外的好處是穩定性。在非常長的序列上進行完整注意力可能會在數值上變得棘手並且記憶體嘈雜。稀疏注意力縮小了工作集，並降低了模型因淹沒在微弱的成對分數中而「忘記」的機率。你保留了一個結構骨幹和一小部分自適應性。這是一種實用的折衷方案，感覺就像是一個工程決策，而不是一篇論文演示。

DSA 在稀疏動物園中的位置

固定模式（局部窗口、膨脹）：快速，但脆弱。除非你的幸運屬性已達到最大值，否則會遺漏長程交叉引用。

全局 token：添加錨點。更好，但含糊不清。你不能在所有東西上都貼上一個「CLS」並稱之為 recall。

通過學習策略進行路由：可能很理想，但在操作上很混亂。訓練複雜性和脆弱的推理。

DSA 的精細混合：為每個 token 管理一個緊湊的候選集，該候選集混合了局部性、結構化全局和高訊號選擇。重點不是要聰明——而是要始終如一地足夠好，以使你的延遲和質量都能擴展。

性能：O(L²) 退稅

到目前為止的報導聲稱大幅降低了成本——「減半」成本出現在令人屏息的文章中——但重點不是確切的數字，而是擴展曲線會重新彎曲，從而使更長的提示和更高的併發性成為可能。如果你的工作負載是：

超過 100 頁的 RAG 和文檔聊天，

多文件代碼導航，

保持長 scratchpad 的工具使用代理，

……DSA 降低了每個 token 的計算和記憶體。你可以將上下文推送到實際有用的地方，而不是上演一場窗口 hack 秀。早期的 vLLM 支援表明這不僅僅是測試指標——它可以在人們部署模型的地方運行。

注意事項（又名為什麼不應該在星期二宣布勝利）

候選選擇不是免費的。如果選擇例程在緩存行上絆倒或將你撞到 CPU-GPU ping-pong 中，你的稀疏性優勢就會消失。

k 是一個預算，而不是與生俱來的權利。太小了，你會丟棄重要的交叉引用。太大了，你就會退回到密集狀態。

訓練與推理不匹配。如果你的模型經過密集訓練，並且你在推理時以稀疏方式運行它，請預期質量會漂移。DSA 最強大的結果出現在稀疏性是訓練飲食的一部分時，而不僅僅是服務時的裝飾。

長尾怪異現象。稀疏模式有時會在 30K token 之後的 out-of-nowhere 回調中失敗。好的混合模型會使用週期性全局或學習到的錨點進行對沖。

如果這一切聽起來像是為一本書製作一個好的索引，那是因為它的確如此。太短了，你什麼都找不到；太長了，它又變成了那本書。

DSA 可能如何選擇保留內容

詳細資訊因實現而異，但策略看起來像：

1) 局部窗口：保留滑動窗口內的鄰居——大多數語言結構都是局部的。2) 週期性/全局 token：插入始終全局連接的常規「信標」。3) 顯著性評分：使用來自先前圖層激活、緩存重要性或近似值（如 top-k 相似性）的輕量級訊號來選擇其他遠端 token。4) 緊湊注意力：僅在保留集的並集上運行注意力。5) 每個圖層重複，允許不同的 head 偏好不同的結構。

這不是正統觀念；這只是可能有效的最不令人驚訝的事情。而且顯然它的確有效，因為現代推理堆疊中提供了操作支援。

DSA vs. Chunking vs. 檢索：選擇你的毒藥

幼稚的 chunking：快速，但愚蠢——上下文邊界變成懸崖。有利於吞吐量，不利於任何微妙的事情。

檢索增強生成：更聰明，但脆弱——取決於檢索器是否記住生成器稍後需要的內容。

DSA 式的稀疏注意力：將整個線程保留在上下文中，並將計算集中在重要的地方。它不會取代檢索；它使檢索不再是一種拐杖。

誠實的解決方案是一種混合：檢索以提取相關文檔，稀疏注意力以推理長序列而不崩潰。你可以同時做到這兩點，而不會討厭你的雲端帳單。

品質：它還能理解嗎？

價值百萬美元的問題是，稀疏注意力是否會在句子之間悄悄地丟掉含義。DeepSeek 模型的早期報告表明，在長上下文中，質量保持不變或提高，因為該模型沒有將概率質量浪費在無意義的成對分數上。訣竅是調整 k 和全局結構，以便模型在整個提示中具有可靠的骨幹。同樣，在迴路中進行稀疏訓練很重要——模型會適應。這就像學習駕駛手動變速箱；一旦你掌握了節奏，你就不會想念自動變速箱。

部署現實：Kernels、緩存、排程器

vLLM 支援說明值得一提：DSA 不僅僅是一種紙上談兵；人們正在為 kernel 支援和排程投入真正的精力，因此它不會因 scatter-gather 劇場而使 GPU 停滯不前。塊稀疏 kernel、融合操作和仔細的 KV 緩存佈局會成就或破壞這些東西。稀疏注意力中最糟糕的結果來自於完全合理的想法與記憶體頻寬和啟動 overhead 相衝突。當這些問題得到解決時，稀疏性就會發揮作用。

DSA 的優勢

結構化文檔上的長上下文問答。局部 + 信標混合會追蹤章節和交叉引用，而不會使注意力氾濫。

代碼庫推理。局部窗口捕獲文件內上下文；週期性/全局連結跨越文件、函數調用和導入。

帶有 scratchpad 的代理。稀疏注意力使代理能夠保持較長的工作記憶體，而不會在第五頁之後退化為胡說八道。

DSA 無法（尚未）發揮作用的地方

微小的提示。密集注意力很好；稀疏 overhead 可能不會攤銷。

高度糾纏的詩歌或謎題提示，需要大海撈針式的飛躍，而沒有明顯的結構提示。你仍然可以調整 k，但該方法更喜歡模式，而不是謎語。

關於 Sider.AI 呢？

這是對任何這些技術的測試：它們是否可以改進工具，而不會將用戶變成無薪的 QA 工程師？在我的運行中，良好整合稀疏注意力的工具——特別是用於文檔和代碼聊天——感覺不那麼喜怒無常。Sider.AI 實際上在這裡發揮作用：當你粘貼 80 頁的規格或艱難地瀏覽一個 repo 時，保持一個長而連貫的線程，而不會停頓或幻想到第 47 頁的能力很重要。行銷部門並沒有吹噓「精細的稀疏性」，這很好。用戶關心的是它保持響應速度、保持上下文清晰，並且花費不會像在拉斯維加斯度週末一樣。如果你正在處理大型、混亂的輸入，這種類型的注意力技巧正是那種在幕後發生的變化，它會減少瑕疵並加快答案。

實用指南：如果你正在決定是否使用 DSA

你的上下文通常 >32K token：是的，評估它。

你擁有你的部署堆疊（vLLM、Triton kernels、KV 緩存調整）：是的，尤其如此。

你被困在密集訓練的權重中並且無法重新訓練：仔細測試；考慮部分稀疏性或 head 特定的稀疏性。

延遲敏感、高 QPS 工作負載：這是曲線彎曲很重要的地方。測量 p95 和 p99。

並且，為了所有 GPU 的愛，使用真實的提示進行基準測試，而不是合成的 lorem ipsum。稀疏方法在實際的相關性分佈上成敗。

元觀點：稀疏性作為一種良好的品味

這是一種美學。同等地關注一切的模型就像每個人都在說話的會議。看起來很民主，但一事無成。DSA 的敏感性是編輯：關注有趣的部分，維護一個骨幹，並保持預算。如果你想要比機器學習更廣泛的教訓，那就是它。好的系統不會做所有事情。它們會快速地做正確的事情。

不可避免的未來：訓練稀疏，服務稀疏

我們將看到更多使用嵌入式稀疏模式進行端到端訓練的模型。這就是最後 10-15% 的質量和穩定性來自的地方：讓模型的歸納偏見與服務路徑保持一致。如果你服務稀疏但訓練密集，你就是在要求模型在高速公路上切換檔位。它可以工作，但當它蹣跚時不要感到震驚。

同時，框架將使稀疏模式可組合：局部窗口 + 週期性全局 + 學習到的錨點 + 檢索感知的 token。最後一點——閉合檢索器顯著性和注意力顯著性之間的迴路——感覺像是下一個顯而易見的步驟。當你獲取的內容告訴你關注的內容時，你就會停止在兩個半盲系統之間來回切換。

那麼 DSA 是如何工作的？簡短的答案

它為每個 token 選擇一組緊湊的可能相關的 token——主要是局部 token、一些全局 token 和一些智能選擇。

它僅在該集合上運行注意力，從二次方減少計算量到上下文長度的大致線性。

它依賴於仔細的 kernel 和緩存佈局，因此理論上的節省會顯示為實際的延遲優勢。

它通過保留結構和足夠的全局連接性來保持質量，因此不會丟失長程引用。

就是這樣。沒有香火，沒有咒語。只是強制執行在關注什麼方面的良好品味。

反轉結局（因為總會有一個）

每個 AI 技巧最終都會有令人失望的時刻。稀疏注意力會錯過一些重要的東西，可能是在一個聰明的批評家精心製作的提示中，他堅持認為模型應該跨語言將第三節連接到第三十七節，同時玩弄一個函數簽名。很好。但大多數實際工作都不是詩歌/基準——而是艱難地處理文本、代碼和事實。對於這一點，DSA 不僅僅是一個好主意。這是模型假裝閱讀你的上下文和一個真正可以閱讀的上下文之間的區別。

如果你可以在不燒毀雲端預算的情況下做到這一點呢？這不是一個技巧。這是進步。

常見問題解答

Q1：DeepSeek Sparse Attention (DSA) 如何用簡單的英語工作？ DSA 將注意力集中在重要的 token 上——主要是附近的文本、一些全局錨點，加上一個簡短的高訊號選擇列表。它不是 O(L²) 比較，而是運行 O(Lk)，通過在削減計算的同時保留結構來保持質量。

Q2：對於長上下文，DSA 比 chunking 或檢索更好嗎？ DSA 將所有內容保留在一個線程中，同時將計算集中在重要的地方；chunking 會產生懸崖，檢索可能會健忘。最好的設置是混合檢索以進行獲取，並使用 DSA 在長上下文中進行推理，而無需二次方稅。

Q3：與密集注意力相比，DSA 會損害模型質量嗎？如果你在訓練和服務時都考慮到稀疏性（並合理地設置 k），則質量會保持不變——對於長上下文通常會更好，因為模型不會淹沒在低價值對中。在密集訓練的權重上以服務稀疏性運行可能會漂移，因此請使用真實的提示進行基準測試。

Q4：哪些工作負載從 DSA 中受益最多？長上下文文檔問答、代碼庫導航和代理 scratchpad。在任何序列長度膨脹且密集注意力變成延遲、記憶體壓力和成本上升的地方。

Q5：vLLM 是否支援 DSA 以進行部署？是的——最近的帖子顯示 vLLM 整合了對 DeepSeek 的精細稀疏注意力的支援，並進行了 kernel 和排程器工作，使其在生產管道中具有實用性。