How does DeepSeek Sparse Attention (DSA) work in plain English?

DSA narrows attention to the tokens that matter—mostly nearby text, a few global anchors, plus a short list of high-signal picks. Instead of O(L²) comparisons, it runs O(Lk), keeping quality by preserving structure while cutting compute.

Is DSA better than chunking or retrieval for long context?

DSA keeps everything in one thread while focusing compute where it counts; chunking creates cliffs and retrieval can be forgetful. The best setups mix retrieval for fetching with DSA for reasoning across long context without the quadratic tax.

Will DSA hurt model quality compared to dense attention?

If you train and serve with sparsity in mind (and set k sanely), quality holds up—often better for long contexts because the model isn’t drowning in low-value pairs. Serve-sparse on dense-trained weights can drift, so benchmark with real prompts.

What workloads benefit most from DSA?

Long-context document Q&A, codebase navigation, and agent scratchpads. Anywhere sequence length balloons and dense attention turns into latency, memory pressure, and rising costs.

Does vLLM support DSA for deployment?

Yes—recent posts show vLLM integrating support for DeepSeek’s fine-grained sparse attention, with kernel and scheduler work to make it practical in production pipelines.

Sparse Attention That Isn’t Sparse Thinking

「革新的」なアテンション機構について言えるのは、誰もが手品を見ているかのように頷きながら、内心では誰にもその仕掛けを説明してくれと頼まれないことを願っているということだ。DeepSeek Sparse Attention (DSA)もその手品の一つだ。巧妙で高速であり、詳細をよく見れば、何百ページもの数式を読み込まなくても実際に理解できる。その約束は、知性を維持しつつ、計算コストを削減することだ。現実は、状況によるが、今回はそのトレードオフが驚くほど健全に見える。

核心を突こう。DSAは、大規模言語モデルが重要なものだけに注意を払うための方法だ。なんとなくとか、「多分関連があるかも」ではない。DSAは、完全な自己アテンションから生じる二次関数的な爆発を、モデルが立っている枝を切断することなく、細かく刈り込む高精度なスパース・アテンション方式だ。従来のモデルのアテンションが、すべての単語が他のすべての単語とアイコンタクトを取らなければならない部屋だとすれば、DSAは内向的な人が活躍できるパーティーに変える。直接的なルート、無意味な世間話の寄り道を減らし、ノイズを大幅に削減する。

DeepSeek Sparse Attentionとは何か？

DSAは、自己アテンションの計算量をO(L²)からO(Lk)に削減するスパース・アテンション機構である。ここで、Lはシーケンス長、kはトークンごとに「保持」される接続数、つまり選択された、おそらく関連性の高い近傍ノードの数である。これが一行で言えることだ。数式を減らし、意味を増やす。DSAは、すべてのトークンが他のすべてのトークンと比較するのではなく、サブセットを選択する。近傍ノード、ヘッド、ウィンドウ、「アンカー」、モデルにとって最も意味のあるヒューリスティックまたは学習されたポリシーなどだ。これにより、無駄なことに時間を費やすことがなくなる。

これを聞いて既視感を覚えるなら、それは当然だ。スパース・アテンションは新しいものではない。Longformer、BigBird、ブロックスパースカーネル、そして多数の「ローカル＋グローバル」ハイブリッドが存在する。通常の問題は、スパースパターンがリコールを漏洩するか（干し草の中から針を見つけられない）、あるいは効率的に実装するのが非常に面倒で、理論的に節約できるものがカーネルのオーバーヘッドとして再浮上してしまうかのどちらかだ。DSAの特筆すべき点は2つある。1つ目は、スパースパターンが一般的なブロックスパースよりもきめ細かく適応性があること。2つ目は、実際の推論スタック（vLLMを含む）で実際に動作する方法でエンドツーエンドに実装されていることだ。

直感：芝刈り機ではなく、避雷針インデクサー

これまでで最も役立つアナロジーは、DSAが避雷針インデクサーのように機能するというものだ。DSAは、フィールド全体を刈り取るのではなく、重要なものに狙いを定める。まるで、3つの段落を削除し、心に響く文章を残す優秀な編集者のようだ。このシステムは、トークンごとに少数の高シグナル接続（何らかの関連性スコアリングによる上位k個など）と、構造の薄いバックボーン（ローカルウィンドウ、定期的なグローバルトークン）を保持し、長距離のコヒーレンスが崩壊しないようにする。

エンジニアが気にするのは、アナロジーの後の部分だ。「関連性」とは、運用上どのような意味を持つのか？DSAのさまざまな解説では、近接性や事前の重要度によって候補キーを選択し、それらの候補間でコンパクトなアテンションを行うヒューリスティックが示唆されている。これは魔法ではない。これはトリアージだ。明らかな近傍ノードを保持し（ローカルコンテキストは言語にとってほとんどの場合有用だ）、グローバルな「ランドマーク」を散りばめ、有望なウィンドウ外トークンに選択的にアテンションをルーティングする。結果として、リコールを損なうことなく、検索空間を縮小する。適切に行えば、これは刈り込みというよりも、きちんとしたマナーのように感じられる。

数式、ミニマリスト版

完全な自己アテンション：O(L²d)。ここで、dはヘッドの次元。

DSA：O(Lkd)。kが固定の場合、Lに関してほぼ線形になる。これは長いコンテキストの場合に重要だ。128Kトークンでは、GPUの使用料金に感謝することになるだろう。

モデルは、トークンごとに動的な候補セットを維持する。候補の選択と、それらの候補間での実際のアテンションに対して料金を支払う。候補の選択がベクトル化され、キャッシュを意識していれば、勝てる。そうでなければ、風船を握りつぶしているようなものだ。

これがすべてのスパース手法における緊張関係だ。漸近的計算量を削減するが、データ移動とカーネル起動のオーバーヘッドでそれを再導入してはならない。DSA周辺の実装では、カーネルレベルのサポートとスケジューラ統合が重視されており、最近の投稿では、これをデプロイメント環境で実際に実現するために、vLLMのサポートが開始されていることが示されている。

DSAが今重要なのはなぜか？

なぜなら、長いコンテキストが新たな画面サイズの争いになっているからだ。誰もが200Kトークン以上を求めている。スクリプト、コードベース、良心ほどの大きさのPDFなどだ。これらの長さでの二次関数的なアテンションは、レイテンシー、スループット、コストにとって非現実的だ。巧妙なチャンク分割と検索でごまかすこともできるが、それはトランクがいっぱいになるので、車に本棚を取り付けるようなものだ。DSAの主張はよりシンプルだ。実際のアテンションステップをばかみたいに高くしないことだ。

副作用として、安定性がある。非常に長いシーケンスに対する完全なアテンションは、数値的に扱いにくく、メモリノイズが多くなる可能性がある。スパース・アテンションは、ワーキングセットを縮小し、モデルが弱いペアワイズスコアに埋もれて「忘れてしまう」可能性を減らす。構造のバックボーンと、その上に適応性の小さなスライスを保持する。これは、実践的な妥協案であり、今回は論文のデモではなく、エンジニアリングの決定のように感じられる。

DSAはスパース動物園のどこに適合するか

固定パターン（ローカルウィンドウ、拡張）：高速だが、脆い。運が良くなければ、長距離の相互参照を見逃す。

グローバルトークン：アンカーを追加する。より良いが、手探りだ。「CLS」をすべてに貼り付けて、リコールと呼ぶことはできない。

学習されたポリシーによるルーティング：潜在的には理想的だが、運用上は厄介だ。トレーニングの複雑さと脆い推論。

DSAの高精度ハイブリッド：ローカリティ、構造化されたグローバル、および高シグナルの選択を混合するトークンごとに、コンパクトな候補セットをキュレートする。重要なのは賢いことではなく、レイテンシーと品質の両方をスケールできるほど一貫して優れていることだ。

パフォーマンス：O(L²)の税金還付

これまでの報道では、大幅なコスト削減が主張されており、「半減」という言葉が熱狂的な記事に登場するが、重要なのは正確な数字ではなく、スケーリング曲線がより長いプロンプトとより高い並行性に対して実行可能になるように曲がることだ。ワークロードが次のような場合：

100ページ以上のRAGおよびドキュメントチャット

複数ファイルのコードナビゲーション

長いスクラッチパッドを保持するツールを使用するエージェント

…DSAは、トークンごとの計算量とメモリを削減する。ウィンドウ化されたハックのパレードを上演する代わりに、コンテキストを実際に役立つ場所にプッシュできる。初期のvLLMサポートは、これが単なるベンチマークの飾りではなく、人々がモデルをデプロイする場所で実行されることを示唆している。

注意点（別名：火曜日に勝利を宣言すべきではない理由）

候補の選択は無料ではない。選択ルーチンがキャッシュラインにつまずいたり、CPU-GPUのピンポンに陥ったりすると、スパース性の利点は消滅する。

kは予算であり、生得権ではない。小さすぎると、重要な相互参照が失われる。大きすぎると、密な状態に戻ってしまう。

トレーニングと推論のミスマッチ。モデルが密にトレーニングされ、推論時にスパースに実行する場合、品質のずれが予想される。DSAの最も強力な結果は、スパース性がトレーニングの一部である場合に現れる。これは、提供時の付け合わせだけではない。

ロングテールの奇妙さ。スパースパターンは、30Kトークン後の予期せぬコールバックを見逃すことがある。優れたハイブリッドは、定期的なグローバルまたは学習されたアンカーでヘッジする。

これらがすべて本の良い索引を作成することのように聞こえる場合、それはまさにその通りだ。短すぎると何も見つけられず、長すぎるとそれはただの本になってしまう。

DSAが保持するものを選ぶ可能性が高い方法

詳細は実装によって異なるが、プレイブックは次のようになる。

ローカルウィンドウ：スライディングウィンドウ内の近傍ノードを保持する。ほとんどの言語構造はローカルだ。2) 定期的/グローバルトークン：常にグローバルに接続する通常の「ビーコン」を挿入する。3) 顕著性スコアリング：事前レイヤーのアクティベーション、キャッシュされた重要度、または上位k類似度のような近似値からの軽量シグナルを使用して、追加の遠隔トークンを選択する。4) コンパクトアテンション：保持されたセットの和集合に対してのみアテンションを実行する。5) レイヤーごとに繰り返して、異なるヘッドが異なる構造を優先できるようにする。

これは正統性ではない。これは、機能する可能性のある最も驚くべきことではないだけだ。そして、最新の推論スタックに運用サポートが着陸していることを考えると、どうやら機能しているようだ。

DSA vs. チャンク分割 vs. 検索：毒を選択する

ナイーブなチャンク分割：高速だが、愚かだ。コンテキストの境界が崖になる。スループットには適しているが、微妙なものには適していない。

検索拡張生成：よりスマートだが、脆い。ジェネレーターが後で必要になるものをリトリーバーが覚えていられるかどうかに依存する。

DSAスタイルのスパース・アテンション：コンテキスト全体を保持し、計算量を重要な場所に集中させる。検索に取って代わるものではない。検索を頼りすぎないようにする。

正直な解決策はブレンドだ。関連するドキュメントを取得するための検索、溶けることなく長いシーケンスを推論するためのスパース・アテンション。クラウド料金を嫌うことなく両方を行うことができる。

品質：それでも理解できるか？

100万ドルの質問は、スパース・アテンションが文と文の間の意味を密かに落としていないかどうかだ。DeepSeekモデルの初期のレポートでは、モデルが無意味なペアワイズスコアに確率質量を浪費していないため、長いコンテキストでも品質が維持または向上することが示唆されている。重要なのは、モデルがプロンプトを通じて信頼できるバックボーンを持つように、kとグローバル構造を調整することだ。そして繰り返すが、ループ内のスパース性を使用したトレーニングが重要だ。マニュアルトランスミッションで運転を学ぶようなものだ。一度リズムをつかむと、自動運転が恋しくなくなることはない。

デプロイメントの現実：カーネル、キャッシュ、スケジューラー

vLLMのサポートに関する注記は、言及する価値がある。DSAは単なる論文上のトリックではない。カーネルのサポートとスケジューリングに実際の作業が行われており、スキャッターギャザーの劇場でGPUを停止させないようにしている。ブロックスパースカーネル、融合されたオペレーション、および慎重なKVキャッシュレイアウトにより、これが成功するか失敗するかが決まる。スパース・アテンションの最悪の結果は、完全に合理的なアイデアがメモリ帯域幅と起動オーバーヘッドと衝突することから生じる。これらが処理されると、スパース性は輝きを放つ。

DSAが輝く場所

構造化されたドキュメントに対する長文コンテキストのQ&A。ローカル＋ビーコンの組み合わせは、アテンションを氾濫させることなく、セクションと相互参照を追跡する。

コードベースの推論。ローカルウィンドウはファイル内のコンテキストをキャプチャする。定期的/グローバルリンクは、ファイル、関数呼び出し、およびインポートをまたいで移動する。

スクラッチパッドを持つエージェント。スパース・アテンションを使用すると、エージェントは5ページ後にナンセンスに劣化することなく、長いワーキングメモリを保持できる。

DSAが（まだ）輝かない場所

小さなプロンプト。密なアテンションは問題ない。スパースのオーバーヘッドは償却されない可能性がある。

明らかな構造的な手がかりなしに、干し草の中から針を見つけるような飛躍を必要とする、高度に絡み合った詩またはパズルのプロンプト。kを調整することはできるが、この方法はなぞなぞよりもパターンを好む。

Sider.AIについてはどうですか？

これらのテクニックのテストは次のとおりだ。ユーザーを無給のQAエンジニアに変えることなく、ツールを改善するか？私の実行では、スパース・アテンションをうまく統合しているツール、特にドキュメントやコードチャットのツールは、気難しさが少ないように感じられる。Sider.AIは実際にここで活躍する。80ページの仕様を貼り付けたり、リポジトリを苦労して調べたりするときに、停止したり、47ページについて幻覚を見たりすることなく、長く一貫性のあるスレッドを維持できる機能が重要になる。マーケティングは「高精度スパース性」について自慢しないが、それで問題ない。ユーザーが気にしているのは、応答性を維持し、コンテキストを正しく維持し、ラスベガスの週末のような費用がかからないことだ。大きく、面倒な入力を使用している場合、このクラスのアテンションのトリックは、欠点が少なく、回答が速くなるという、まさに隠れた変化だ。

実践的なガイダンス：DSAを使用するかどうかを決定する場合

コンテキストが日常的に>32Kトークンである場合：はい、評価する。

独自のデプロイメントスタック（vLLM、Tritonカーネル、KVキャッシュチューニング）を所有している場合：特にそうだ。

密にトレーニングされた重みに固執しており、再トレーニングできない場合：慎重にテストする。部分的なスパース性またはヘッド固有のスパース性を検討する。

レイテンシーの影響を受けやすい、高QPSのワークロード：これは、曲線が曲がる場所だ。p95とp99を測定する。

そして、GPUのすべてのもののために、合成のlorem ipsumではなく、実際のプロンプトでベンチマークを行う。スパースメソッドは、関連性の現実的な分布によって生き残るか死ぬかだ。

メタポイント：良い趣味としてのスパース性

これには美学がある。すべてに平等に注意を払うモデルは、誰もが発言する会議のようなものだ。民主的に見えるが、何も達成しない。DSAの感性は編集的だ。興味深い部分に焦点を当て、バックボーンを維持し、予算を維持する。機械学習よりも広い教訓が必要な場合は、そこに教訓がある。優れたシステムは、すべてを行うわけではない。適切なことを迅速に行う。

避けられない未来：スパースにトレーニングし、スパースにサービスを提供する

スパースパターンを組み込んでエンドツーエンドでトレーニングされたモデルがさらに増えるだろう。それは、品質と安定性の最後の10〜15％が得られる場所だ。モデルの帰納的バイアスをサービスパスに合わせる。スパースにサービスを提供するが、密にトレーニングする場合は、高速道路でギアを切り替えるようにモデルに要求していることになる。機能する可能性はあるが、よろめいても驚かないで。

一方、フレームワークはスパースパターンを構成可能にするだろう。ローカルウィンドウ＋定期的なグローバル＋学習されたアンカー＋検索を認識するトークン。最後のビット、つまりリトリーバーの顕著性とアテンションの顕著性の間のループを閉じることは、次の明らかなステップのように感じられる。フェッチするものが注意を払うものに通知する場合、2つの半盲システム間でのピンポンを停止する。

では、DSAはどのように機能するのか？短い答え

各トークンに対して、関連性の高い可能性のあるトークンのコンパクトなセットを選択する。ほとんどがローカル、一部がグローバル、一部がスマートな選択。

そのセットに対してのみアテンションを実行し、計算量を2次からコンテキスト長でほぼ線形に削減する。

慎重なカーネルとキャッシュレイアウトに依存しているため、理論的な節約が実際のレイテンシーの勝利として現れる。

構造を維持し、長距離参照が失われないように十分なグローバル接続性を維持することで、品質を維持する。

それだけだ。お香も呪文もない。何に注意を払うかという、強制された良い趣味だ。

どんでん返し（常に1つあるから）

すべてのAIトリックには、最終的に失望の瞬間が訪れる。スパース・アテンションは何か重要なものを見逃すだろう。おそらく、モデルがスタンザ3をスタンザ37に言語をまたいで接続し、関数シグネチャを操作しながら接続する必要があると主張する賢明な批評家によって作成されたプロンプトで。構わない。しかし、ほとんどの実際の作業は詩とベンチマークではなく、テキスト、コード、および事実を苦労して処理することだ。そのため、DSAは単なる良いアイデアではない。コンテキストを読んでいるふりをするモデルと、実際に読めるモデルの違いだ。

そして、クラウド予算に穴を開けることなくそれを行うことができれば？それはトリックではない。それは進歩だ。

FAQ

Q1：DeepSeek Sparse Attention (DSA) は、平易な英語でどのように機能しますか？ DSA は、重要なトークン、つまりほとんどが近くのテキスト、いくつかのグローバルアンカー、および高シグナルの選択の短いリストに注意を絞ります。O(L²) の比較の代わりに、O(Lk) を実行し、構造を維持しながら計算を削減することで品質を維持します。

Q2：長いコンテキストの場合、DSA はチャンク分割または検索よりも優れていますか？ DSA はすべてを 1 つのスレッドに保持しながら、計算を重要な場所に集中させます。チャンク分割は崖を作成し、検索は忘れられる可能性があります。最良のセットアップは、フェッチのための検索と、2 次税なしで長いコンテキスト全体を推論するための DSA を組み合わせます。

Q3：DSA は、密なアテンションと比較してモデルの品質を損ないますか？スパース性を念頭に置いてトレーニングおよび提供し（k を適切に設定）、品質は維持されます。モデルが低価値のペアに溺れていないため、多くの場合、長いコンテキストでは品質が向上します。密にトレーニングされた重みでスパースに提供するとドリフトする可能性があるため、実際のプロンプトでベンチマークを行います。

Q4：DSA から最も恩恵を受けるワークロードは何ですか？長文コンテキストのドキュメント Q&A、コードベースナビゲーション、およびエージェントスクラッチパッド。シーケンス長が肥大化し、密なアテンションがレイテンシー、メモリプレッシャー、およびコストの上昇につながる場所。

Q5：vLLM はデプロイメントのために DSA をサポートしていますか？はい。最近の投稿では、DeepSeek の高精度スパースアテンションのサポートを統合した vLLM が示されており、本番パイプラインで実用的にするためのカーネルおよびスケジューラ作業が行われています。