How does DeepSeek Sparse Attention (DSA) work in plain English?

DSA narrows attention to the tokens that matter—mostly nearby text, a few global anchors, plus a short list of high-signal picks. Instead of O(L²) comparisons, it runs O(Lk), keeping quality by preserving structure while cutting compute.

Is DSA better than chunking or retrieval for long context?

DSA keeps everything in one thread while focusing compute where it counts; chunking creates cliffs and retrieval can be forgetful. The best setups mix retrieval for fetching with DSA for reasoning across long context without the quadratic tax.

Will DSA hurt model quality compared to dense attention?

If you train and serve with sparsity in mind (and set k sanely), quality holds up—often better for long contexts because the model isn’t drowning in low-value pairs. Serve-sparse on dense-trained weights can drift, so benchmark with real prompts.

What workloads benefit most from DSA?

Long-context document Q&A, codebase navigation, and agent scratchpads. Anywhere sequence length balloons and dense attention turns into latency, memory pressure, and rising costs.

Does vLLM support DSA for deployment?

Yes—recent posts show vLLM integrating support for DeepSeek’s fine-grained sparse attention, with kernel and scheduler work to make it practical in production pipelines.

并非稀疏思考的稀疏注意力

关于“革命性”的注意力机制，大家似乎都在看魔术表演一样点头称是，然后悄悄地希望没人让他们解释其中的奥秘。DeepSeek Sparse Attention (DSA) 就是其中一种“魔术”——巧妙、快速，如果你仔细观察细节，实际上是可以理解的，而不需要啃读数百页的数学公式。它的承诺是：保留智能，摆脱计算负担。现实情况是：这取决于具体情况，但这次的权衡看起来非常合理。

让我们直截了当地说：DSA 是一种让大型语言模型只关注重要内容的方法。不是模棱两可，也不是“也许相关”。它是一种精细的稀疏注意力机制，可以消除完全自注意力机制带来的二次方爆炸式增长，而不会砍掉模型所依赖的分支。如果旧模型的注意力像一个房间，每个词都必须与其他每个词进行眼神交流，那么 DSA 就像一个内向者可以茁壮成长的派对：直接的路线，更少的毫无意义的闲聊，以及更少的噪音。

DeepSeek Sparse Attention 究竟是什么？

DSA 是一种稀疏注意力机制，它将自注意力的计算复杂度从 O(L²) 降低到 O(Lk)，其中 L 是序列长度，k 是每个 token “保留”的连接数——选定的、可能相关的邻居。这就是一句话概括。少一些数学，多一些理解：DSA 不是让每个 token 与其他每个 token 进行比较，而是选择一个子集——邻居、头、窗口、“锚点”，无论哪种启发式或学习策略对模型来说最有意义——这样你就不会在无意义的事情上浪费时间。

如果你觉得这听起来很熟悉，那是因为它的确如此：稀疏注意力并不是什么新鲜事物。我们已经有了 Longformer、BigBird、块稀疏内核以及十几个“局部+全局”混合模型。通常的问题是，稀疏模式要么会遗漏召回（它们错过了大海捞针），要么它们在实现效率方面非常麻烦，以至于你理论上节省的任何东西都会以内核开销的形式重新出现。DSA 的主要优势在于两点：首先，稀疏模式比普通的块稀疏更精细和自适应；其次，它已经以端到端的方式实现，可以在实际的推理堆栈上工作——包括 vLLM。

直觉：闪电索引器，而非割草机

我见过的最有用的类比是：DSA 就像一个闪电索引器。它不会修剪整个田地；它会冲向重要的东西——就像一个好的编辑划掉三个段落，只保留最精彩的句子。该系统为每个 token 保留一小组高信号连接——可以认为是按相关性评分排序的 top-k——加上一个薄弱的结构骨干（局部窗口、周期性全局 token），这样长程连贯性就不会变成一团糟。

工程师们关心的是类比之后的部分： operational 上“相关性”是什么意思？不同的 DSA 文档暗示了通过邻近性和先验重要性选择候选键的启发式方法，然后对这些候选键进行紧凑的注意力计算。这不是魔法；这是分诊。你保留明显的邻居（局部上下文几乎总是对语言有用的），洒入全局“地标”，并有选择地将注意力路由到有希望的窗口外 token。最终效果：你在不削弱召回的情况下缩小了搜索空间。如果做得对，这感觉不像修剪，而更像是一种得体的礼仪。

数学，极简版

完全自注意力：O(L²d)，其中 d 是头维度。

DSA：O(Lkd)。对于固定的 k，这在 L 中是线性相关的。这对于长上下文很重要。在 128K token 时，你的 GPU 账单会感谢你。

该模型为每个 token 维护一个动态候选集。你需要为候选选择以及它们之间的实际注意力计算付费。如果候选选择是矢量化的并且具有缓存意识，那么你就赢了；如果不是，你就是在挤一个气球。

这就是所有稀疏方法的张力所在：减少渐近性，但不要在数据移动和内核启动开销中重新引入它。围绕 DSA 的实现强调内核级别的支持和调度程序集成，最近的帖子显示 vLLM 支持的落地正是为了使其在部署环境中成为现实。

为什么 DSA 现在很重要？

因为长上下文是新的屏幕尺寸之战。每个人都想要 200K token 及以上——脚本、代码库、像你的良心一样大的 PDF 文件。在这些长度上进行二次注意力计算对于延迟、吞吐量和成本来说是不可接受的。你可以用巧妙的分块和检索来伪造它，但这就像在你的车里安装一个书架，因为你的后备箱总是被塞满。DSA 的论点更简单：让实际的注意力计算步骤不那么愚蠢地昂贵。

一个额外的好处是稳定性。在非常长的序列上进行完全注意力计算在数值上可能会很敏感并且内存嘈杂。稀疏注意力会缩小工作集，并降低模型因淹没在微弱的成对分数中而“忘记”的几率。你保留一个结构骨干和一个小部分的自适应性。这是一个实用的折衷方案，这一次感觉更像是一个工程决策，而不是一个论文演示。

DSA 在稀疏动物园中的位置

固定模式（局部窗口、扩张）：快速，但脆弱。除非你的运气值达到最大，否则会错过长程交叉引用。

全局 token：添加锚点。更好，但有点随意。你不能在所有事物上都贴上一个“CLS”标签，然后就声称是召回。

通过学习策略进行路由：可能很理想，但在 operational 上很混乱。训练复杂性与脆弱的推理。

DSA 的精细混合：为每个 token 管理一个紧凑的候选集，该候选集混合了局部性、结构化全局变量和高信号选择。重点不是要聪明——而是要始终足够好，以使你的延迟和质量都能扩展。

性能：O(L²) 退税

到目前为止的报道声称大幅降低了成本——“减半”成本出现在令人兴奋的文章中——但重点不是确切的数字，而是缩放曲线会回落到更长的 prompt 和更高的并发的可行性。

RAG 和超过 100 页的文档聊天，

多文件代码导航，

使用长 scratchpad 的工具型 agents，

…DSA 降低了每个 token 的计算和内存。你可以将上下文推送到真正有用的地方，而不是上演一连串的窗口化技巧。早期的 vLLM 支持表明这不仅仅是 bench-bling——它可以在人们部署模型的地方运行。

注意事项（又名为什么不应该在周二宣布胜利）

候选选择不是免费的。如果选择例程在缓存行上绊倒或将你推入 CPU-GPU 乒乓，那么你的稀疏性优势就会消失。

k 是一个预算，而不是与生俱来的权利。太小了，你会丢失重要的交叉引用。太大了，你又会回到密集状态。

训练与推理不匹配。如果你的模型经过密集训练，并且你在推理时以稀疏方式运行它，请预期质量会下降。DSA 最强大的结果出现在稀疏性是训练的一部分时，而不仅仅是 serving-time 的装饰。

长尾怪异现象。稀疏模式有时会错过 30K token 之后突然出现的意外回调。好的混合模型会使用周期性全局变量或学习的锚点来对冲风险。

如果这一切听起来像是为一本书制作一个好的索引，那是因为它的确如此。太短了，你找不到任何东西；太长了，它又变成了这本书。

DSA 可能如何选择要保留的内容

详细信息因实现而异，但 playbook 看起来像：

局部窗口：保留滑动窗口内的邻居——大多数语言结构都是局部的。2) 周期性/全局 token：插入始终全局连接的规则“信标”。3) 显着性评分：使用轻量级信号——来自先前层激活、缓存的重要性或近似值（如 top-k 相似性）——来选择其他远程 token。4) 紧凑注意力：仅对保留集的并集运行注意力。5) 每层重复，允许不同的头偏好不同的结构。

这不是正统的；这只是最不令人惊讶的有效方法。而且显然它确实有效，鉴于 operational 支持已在现代推理堆栈中落地。

DSA vs. 分块 vs. 检索：选择你的毒药

朴素分块：快速，但愚蠢——上下文边界变成悬崖。适合吞吐量，不适合任何微妙的事情。

检索增强生成：更智能，但脆弱——取决于检索器是否记住生成器稍后需要什么。

DSA 风格的稀疏注意力：将整个线程保持在上下文中，并将计算集中在重要的位置。它不会取代检索；它使检索不再是一种拐杖。

诚实的解决方案是混合：检索拉取相关文档，稀疏注意力推理长序列而不会崩溃。你可以两者兼得，而不会讨厌你的云账单。

质量：它还能理解吗？

价值百万美元的问题是，稀疏注意力是否会悄悄地丢掉句子之间的含义。DeepSeek 模型的早期报告表明，在长上下文中，质量保持不变或有所提高，因为该模型不会将概率质量浪费在毫无意义的成对分数上。诀窍是调整 k 和全局结构，以便模型在 prompt 中有一个可靠的骨干。同样，在循环中进行稀疏性训练也很重要——模型会适应。这就像学习用手动变速箱驾驶一样；一旦你掌握了节奏，你就不会想念自动挡了。

部署现实：内核、缓存、调度程序

vLLM 支持说明值得一提：DSA 不仅仅是一个纸上谈兵的技巧；人们正在为内核支持和调度投入大量精力，这样它就不会用分散-聚集的噱头来拖累 GPU。块稀疏内核、融合操作和仔细的 KV 缓存布局决定了成败。稀疏注意力中最糟糕的结果来自于完全合理的想法与内存带宽和启动开销的冲突。当这些问题得到处理时，稀疏性就会奏效。

DSA 的闪光点

在结构化文档上进行长上下文问答。局部 + 信标混合可以跟踪部分和交叉引用，而不会淹没注意力。

代码库推理。局部窗口捕获文件内上下文；周期性/全局链接跨文件、函数调用和导入。

带有 scratchpad 的 agents。稀疏注意力使 agent 能够保持较长的工作记忆，而不会在第五页之后退化为胡说八道。

DSA (尚未) 不适用的情况

微小的 prompt。密集注意力很好；稀疏开销可能无法摊销。

高度纠缠的诗歌或谜题 prompt，需要大海捞针式的飞跃，而没有明显的结构线索。你仍然可以调整 k，但该方法更喜欢模式而不是谜语。

关于 Sider.AI 呢？

以下是针对任何这些技术的测试：它们是否可以在不将用户变成无偿 QA 工程师的情况下使工具变得更好？在我的运行中，很好地集成了稀疏注意力的工具——特别是对于文档和代码聊天——感觉不那么喜怒无常。Sider.AI 实际上在这里发挥作用：当你粘贴 80 页的规范或艰难地浏览一个 repo 时，保持一个长期的、连贯的线程而不停顿或在第 47 页上产生幻觉的能力很重要。营销宣传并没有吹嘘“精细的稀疏性”，这很好。用户关心的是它保持响应速度、保持上下文清晰，并且不会像在拉斯维加斯度周末一样昂贵。如果你正在处理大型、混乱的输入，那么这种注意力技巧正是那种在幕后发生的改变，它会减少缺陷并加快答案。

实用指南：如果你正在决定是否使用 DSA

你的上下文通常 >32K token：是的，评估它。

你拥有自己的部署堆栈 (vLLM、Triton 内核、KV 缓存调整)：是的，尤其如此。

你被困在密集训练的权重中并且无法重新训练：仔细测试；考虑部分稀疏性或特定于头的稀疏性。

对延迟敏感、高 QPS 工作负载：这是曲线弯曲发挥作用的地方。测量 p95 和 p99。

并且，为了 GPU 的一切，请使用真实的 prompt 进行基准测试，而不是合成的 lorem ipsum。稀疏方法在现实的相关性分布中生存或死亡。

元观点：稀疏性是一种好品味

这其中有一种美学。平等地关注一切的模型就像每个人都在说话的会议。看起来很民主，但一事无成。DSA 的敏感性是编辑性的：关注有趣的部分，维护一个骨干，并保持一个预算。如果你想要一个比机器学习更广泛的教训，那就是它。好的系统不会做所有事情。它们会快速地做正确的事情。

不可避免的未来：稀疏训练，稀疏服务

我们将看到更多使用稀疏模式进行端到端训练的模型。这就是最后 10-15% 的质量和稳定性来自于：让模型的归纳偏置与 serving 路径对齐。如果你的 serving 是稀疏的但训练是密集的，那么你就是在要求模型在高速公路上切换档位。它可以工作，但当它颠簸时不要感到震惊。

同时，框架将使稀疏模式可组合：局部窗口 + 周期性全局变量 + 学习的锚点 + 检索感知的 token。最后一点——闭合检索器显着性和注意力显着性之间的循环——感觉像是下一个显而易见的步骤。当你的获取内容告诉你应该关注什么时，你就会停止在两个半盲系统之间来回切换。

那么 DSA 是如何工作的？简短的答案

它为每个 token 选择一组紧凑的可能相关的 token——主要是本地 token，一些全局 token，一些智能选择。

它仅在该集合上运行注意力，将计算量从二次方削减到大致与上下文长度呈线性关系。

它依赖于仔细的内核和缓存布局，因此理论上的节省可以转化为真正的延迟优势。

它通过保留结构和足够的全局连接来保持质量，因此不会丢失长程引用。

就这样。没有香，没有咒语。只是强制执行了在应该关注什么方面的好品味。

反转结局（因为总有一个）

每一个 AI 技巧最终都会有令人失望的时刻。稀疏注意力会错过一些重要的东西，可能是在一个聪明的批评家精心制作的 prompt 中，他坚持认为模型应该在跨语言翻译的同时，将第三节连接到第三十七节，同时还要处理一个函数签名。好吧。但大多数实际工作不是诗歌/基准测试——而是艰难地处理文本、代码和事实。为此，DSA 不仅仅是一个好主意。它是模型假装阅读你的上下文和实际可以阅读你的上下文之间的区别。

如果你可以在不烧毁云预算的情况下做到这一点？那不是一个技巧。那是进步。

FAQ

Q1:DeepSeek Sparse Attention (DSA) 用简单的语言是如何工作的？ DSA 将注意力缩小到重要的 token——主要是附近的文本、一些全局锚点，加上一小部分高信号选择。它不是进行 O(L²) 次比较，而是运行 O(Lk)，通过保留结构并在减少计算量的同时保持质量。

Q2:对于长上下文，DSA 比分块或检索更好吗？ DSA 将所有内容保持在一个线程中，同时将计算集中在重要的位置；分块会产生悬崖，而检索可能会健忘。最好的设置是将检索用于获取，将 DSA 用于跨长上下文的推理，而无需二次方税。

Q3:与密集注意力相比，DSA 会损害模型质量吗？如果你在训练和服务时考虑到稀疏性（并合理地设置 k），那么质量会保持不变——对于长上下文通常更好，因为模型不会淹没在低价值的配对中。在经过密集训练的权重上进行 serve-sparse 可能会发生偏移，因此请使用真实的 prompt 进行基准测试。

Q4:哪些工作负载从 DSA 中受益最多？长上下文文档问答、代码库导航和 agent scratchpad。任何序列长度膨胀且密集注意力变成延迟、内存压力和成本上升的地方。

Q5:vLLM 是否支持 DSA 部署？是的——最近的帖子显示 vLLM 集成了对 DeepSeek 的精细稀疏注意力的支持，并进行了内核和调度程序工作，使其在生产管道中切实可行。