How does DeepSeek Sparse Attention (DSA) work in plain English?

DSA narrows attention to the tokens that matter—mostly nearby text, a few global anchors, plus a short list of high-signal picks. Instead of O(L²) comparisons, it runs O(Lk), keeping quality by preserving structure while cutting compute.

Is DSA better than chunking or retrieval for long context?

DSA keeps everything in one thread while focusing compute where it counts; chunking creates cliffs and retrieval can be forgetful. The best setups mix retrieval for fetching with DSA for reasoning across long context without the quadratic tax.

Will DSA hurt model quality compared to dense attention?

If you train and serve with sparsity in mind (and set k sanely), quality holds up—often better for long contexts because the model isn’t drowning in low-value pairs. Serve-sparse on dense-trained weights can drift, so benchmark with real prompts.

What workloads benefit most from DSA?

Long-context document Q&A, codebase navigation, and agent scratchpads. Anywhere sequence length balloons and dense attention turns into latency, memory pressure, and rising costs.

Does vLLM support DSA for deployment?

Yes—recent posts show vLLM integrating support for DeepSeek’s fine-grained sparse attention, with kernel and scheduler work to make it practical in production pipelines.

Sparse Attention That Isn’t Sparse Thinking

الجميل في آليات الانتباه "الثورية" هو أن الجميع يومئ برأسه وكأنه يشاهد ساحرًا، ثم يأمل بهدوء ألا يطلب منه أحد شرح الخدعة. إن DeepSeek Sparse Attention (DSA) هي إحدى هذه الخدع—ذكية وسريعة، وإذا دققت في التفاصيل، يمكنك فهمها فعليًا دون الحاجة إلى قراءة مئات الصفحات من الرياضيات. الوعد: الحفاظ على الذكاء، والتخلص من ضريبة الحوسبة. الواقع: يعتمد الأمر، ولكن هذه المرة تبدو المقايضات منطقية بشكل منعش.

لنختصر الأمر: DSA هي طريقة للنماذج اللغوية الكبيرة للانتباه فقط إلى الأمور المهمة. ليس نوعًا ما. وليس "ربما تكون ذات صلة". إنه مخطط انتباه متفرق دقيق يقوم بتقليم الانفجار التربيعي الذي تحصل عليه من الانتباه الذاتي الكامل—دون قطع الغصن الذي يقف عليه النموذج. إذا كان انتباه النموذج القديم عبارة عن غرفة يجب أن تتواصل فيها كل كلمة مع كل كلمة أخرى، فإن DSA يحولها إلى حفلة يزدهر فيها الانطوائيون: طرق مباشرة، عدد أقل من الالتفافات عديمة الجدوى، وضوضاء أقل بكثير.

ما هو DeepSeek Sparse Attention، في الواقع؟

DSA هي آلية انتباه متفرقة تقلل من التعقيد الحسابي للانتباه الذاتي من O(L²) إلى O(Lk)، حيث L هو طول التسلسل و k هو عدد الاتصالات "المحتفظ بها" لكل رمز—الجيران المحددون، المفترض أنهم ذوو صلة.. هذا هو الملخص في سطر واحد. رياضيات أقل، فهم أكبر: بدلاً من مقارنة كل رمز بذاته مع كل رمز آخر، تختار DSA مجموعة فرعية—جيران، رؤوس، نوافذ، "نقاط ارتكاز"، أي سياسة إرشادية أو مكتسبة منطقية للنموذج—حتى لا تضيع الوقت في الهراء.

إذا كنت تعتقد أن هذا يبدو مألوفًا، فهو كذلك: الانتباه المتفرق ليس جديدًا. لدينا Longformer و BigBird ونواة متفرقة الكتل وعشرات من الأنظمة الهجينة "المحلية + العالمية". المشكلة المعتادة هي أن الأنماط المتفرقة إما تتسبب في تسرب الاسترجاع (تفوت الإبرة في كومة القش)، أو أنها مؤلمة للغاية لتنفيذها بكفاءة لدرجة أن أي شيء توفره نظريًا يظهر مرة أخرى كتكاليف غير مباشرة للنواة. يكمن صيت DSA في شيئين: أولاً، نمط التفرقة أكثر دقة وتكيفًا من تفرقة الكتل العادية؛ ثانيًا، تم تنفيذه من النهاية إلى النهاية بطريقة تعمل بالفعل على مجموعات الاستدلال الحقيقية—بما في ذلك vLLM..

الحدس: فهرس البرق، وليس جزازة العشب

التشبيه الأكثر فائدة الذي رأيته: تعمل DSA مثل فهرس البرق. إنها لا تجز العشب بأكمله؛ بل تندفع إلى ما يهم—مثل المحرر الجيد الذي يشطب ثلاث فقرات ويحتفظ بالجملة التي تغني. يحتفظ النظام بمجموعة صغيرة من الاتصالات عالية الإشارة لكل رمز—فكر في أعلى k عن طريق بعض تسجيلات الأهمية—بالإضافة إلى هيكل عظمي رفيع من الهيكل (نوافذ محلية، ورموز عالمية دورية) حتى لا يتحول التماسك بعيد المدى إلى فوضى..

يهتم المهندسون بالجزء الذي يلي التشبيه: ماذا تعني كلمة "الأهمية" من الناحية العملية؟ تلمح كتابات DSA المختلفة إلى طرق إرشادية تختار مفاتيح المرشحين عن طريق التقارب والأهمية المسبقة، يليها انتباه مضغوط بين هؤلاء المرشحين. إنه ليس سحرًا؛ إنه فرز. أنت تحتفظ بالجيران الواضحين (السياق المحلي مفيد دائمًا تقريبًا للغة)، وترش فيه "معالم" عالمية، وتوجه الانتباه بشكل انتقائي إلى الرموز الواعدة خارج النافذة. التأثير الصافي: أنت تقلل مساحة البحث إلى الحجم المناسب دون إعاقة الاسترجاع. عندما يتم ذلك بشكل صحيح، فإن هذا يبدو أقل وكأنه تقليم وأكثر وكأنه سلوك لائق.

الرياضيات، نسخة مبسطة

انتباه ذاتي كامل: O(L²d)، حيث d هو بُعد الرأس.

DSA: O(Lkd). بالنسبة إلى k ثابتة، يكون هذا خطيًا تقريبًا في L. هذا مهم للسياقات الطويلة. عند 128 ألف رمز، فإن فاتورة وحدة معالجة الرسومات الخاصة بك تشكرك.

يحافظ النموذج على مجموعة مرشحين ديناميكية لكل رمز. أنت تدفع مقابل اختيار المرشحين بالإضافة إلى الانتباه الفعلي بينهم. إذا كان اختيار المرشحين متجهيًا ويدعم التخزين المؤقت، فستفوز؛ وإذا لم يكن كذلك، فأنت تضغط على بالون.

هذا هو التوتر في جميع الطرق المتفرقة: تقليل المقاربات التقاربية، ولكن لا تعيد إدخالها في حركة البيانات وتكاليف إطلاق النواة. تؤكد التطبيقات المحيطة بـ DSA على دعم مستوى النواة وتكامل المجدول، وتظهر المنشورات الحديثة دعم vLLM الذي وصل تحديدًا لجعل هذا حقيقيًا في إعدادات النشر..

لماذا DSA مهم الآن؟

لأن السياق الطويل هو حرب حجم الشاشة الجديدة. الجميع يريد 200 ألف رمز وما فوق—نصوص برمجية وقواعد بيانات ونماذج PDF بحجم ضميرك. الانتباه التربيعي بهذه الأطوال هو بداية غير منطقية بالنسبة لوقت الاستجابة والإنتاجية والتكلفة. يمكنك تزويره بتقسيم ذكي واسترجاع، ولكن هذا يشبه تثبيت رف كتب في سيارتك لأن صندوق سيارتك يستمر في الامتلاء. حجة DSA أبسط: اجعل خطوة الانتباه الفعلية غير مكلفة بشكل غبي.

الفائدة الجانبية هي الاستقرار. يمكن أن يكون الانتباه الكامل عبر التسلسلات الطويلة جدًا حساسًا عدديًا وصاخبًا للذاكرة. يقلل الانتباه المتفرق من مجموعة العمل ويقلل من احتمالات "نسيان" النموذج بالغرق في درجات الاقتران الضعيفة. أنت تحتفظ بهيكل عظمي من الهيكل وشريحة صغيرة من القدرة على التكيف في الأعلى. إنه حل وسط عملي يبدو، لمرة واحدة، وكأنه قرار هندسي وليس عرضًا تقديميًا للورق.

أين تتناسب DSA في حديقة الحيوانات المتفرقة

أنماط ثابتة (نوافذ محلية، تمددات): سريعة، ولكنها هشة. تفوت الإشارات المرجعية المتبادلة بعيدة المدى ما لم يتم زيادة إحصائية الحظ الخاصة بك إلى أقصى حد.

رموز عالمية: إضافة نقاط ارتكاز. أفضل، ولكن بشكل غير واضح. لا يمكنك وضع "CLS" على كل شيء وتسميته استرجاعًا.

التوجيه عبر السياسات المكتسبة: مثالي محتمل، فوضوي تشغيليًا. تعقيدات التدريب والاستدلال الهش.

النمط الهجين الدقيق لـ DSA: قم برعاية مجموعة مرشحين مضغوطة لكل رمز يمزج بين المحلية والعالميات المنظمة والاختيارات عالية الإشارة. النقطة ليست أن تكون ذكيًا—بل أن تكون جيدًا بما فيه الكفاية باستمرار بحيث يتوسع كل من وقت الاستجابة والجودة.

الأداء: استرداد ضريبة O(L²)

تزعم التغطية حتى الآن تخفيضات كبيرة في التكاليف—تظهر تكاليف "النصف" في المقالات اللهثى—لكن النقطة ليست الرقم الدقيق، بل أن منحنى التحجيم ينحني مرة أخرى إلى الجدوى للمطالبات الأطول والتزامن الأعلى.. إذا كانت أحمال العمل الخاصة بك هي:

RAG ومحادثة المستندات عبر 100+ صفحة،

التنقل في التعليمات البرمجية متعددة الملفات،

الوكلاء الذين يستخدمون الأدوات والذين يحتفظون بلوحات خدش طويلة،

…DSA يقلل من حساب الرمز المميز والذاكرة. يمكنك دفع السياق إلى حيث يكون مفيدًا بالفعل بدلاً من تنظيم موكب من الاختراقات ذات النوافذ. يشير دعم vLLM المبكر إلى أن هذا ليس مجرد زخرفة—إنه يعمل حيث ينشر الناس النماذج..

المحاذير (بمعنى آخر، لماذا لا ينبغي لأحد أن يعلن النصر يوم الثلاثاء)

اختيار المرشحين ليس مجانيًا. إذا تعثر روتين الاختيار على خطوط ذاكرة التخزين المؤقت أو دفعك إلى بينغ بونغ وحدة المعالجة المركزية ووحدة معالجة الرسومات، فإن مكاسب التفرقة الخاصة بك تتبخر.

k هي ميزانية، وليست حقًا فطريًا. صغير جدًا وتسقط الإشارات المرجعية المتبادلة التي تهم. كبير جدًا وتعود إلى الكثافة.

عدم تطابق التدريب مقابل الاستدلال. إذا تم تدريب النموذج الخاص بك بكثافة وقمت بتشغيله بشكل متفرق في الاستدلال، فتوقع انحرافًا في الجودة. تظهر أقوى نتائج DSA عندما يكون التفرقة جزءًا من النظام الغذائي للتدريب، وليس مجرد زخرفة في وقت التقديم.

غرابة الذيل الطويل. تفوت الأنماط المتفرقة أحيانًا الاتصال الراجع من العدم بعد 30 ألف رمز مميز. تتحوط الأنظمة الهجينة الجيدة بعالميات دورية أو نقاط ارتكاز مكتسبة.

إذا كان كل هذا يبدو وكأنه عمل فهرس جيد لكتاب، فذلك لأنه كذلك. قصير جدًا ولا يمكنك العثور على أي شيء؛ طويل جدًا وهو مجرد الكتاب مرة أخرى.

كيف تختار DSA على الأرجح ما يجب الاحتفاظ به

تختلف التفاصيل حسب التنفيذ، لكن دفتر القواعد يبدو كالتالي:

نافذة محلية: احتفظ بالجيران داخل نافذة منزلقة—معظم بنية اللغة محلية. 2) رموز دورية/عالمية: أدخل "منارات" منتظمة تتصل دائمًا عالميًا. 3) تسجيل الأهمية: استخدم إشارات خفيفة الوزن—من تنشيط الطبقة السابقة، والأهمية المخزنة مؤقتًا، أو التقريبات مثل تشابه أعلى k—لتحديد الرموز المميزة البعيدة الإضافية. 4) انتباه مضغوط: قم بتشغيل الانتباه فقط على اتحاد المجموعة المحتفظ بها. 5) كرر لكل طبقة، مما يسمح لرؤوس مختلفة بتفضيل هياكل مختلفة.

هذا ليس عقيدة؛ إنه مجرد أقل شيء مدهش يمكن أن ينجح. وعلى ما يبدو أنه ينجح، بالنظر إلى الدعم التشغيلي الذي وصل إلى مجموعات الاستدلال الحديثة..

DSA مقابل التقسيم مقابل الاسترجاع: اختر سمك

تقسيم ساذج: سريع، ولكنه غبي—تصبح حدود السياق منحدرات. جيد للإنتاجية، سيئ لأي شيء دقيق.

جيل معزز بالاسترجاع: أكثر ذكاءً، ولكنه هش—يعتمد على تذكر المسترجع لما سيحتاجه المولد لاحقًا.

انتباه متفرق على غرار DSA: يحتفظ بالخيط بأكمله في السياق، مع تركيز الحساب حيثما يهم. إنه لا يحل محل الاسترجاع؛ بل يجعله أقل اعتمادًا على العكاز.

الحل الصادق هو مزيج: استرجاع لسحب المستندات ذات الصلة، وانتباه متفرق للاستدلال على التسلسلات الطويلة دون ذوبان. يمكنك فعل كليهما دون كراهية فاتورة السحابة الخاصة بك.

الجودة: هل لا يزال يفهم؟

السؤال الذي تبلغ قيمته مليون دولار هو ما إذا كان الانتباه المتفرق يسقط بهدوء المعنى بين الجمل. تشير التقارير المبكرة لنماذج DeepSeek إلى أن الجودة تصمد أو تتحسن في السياق الطويل لأن النموذج لا يهدر كتلة الاحتمالية على درجات الاقتران عديمة المعنى. الخدعة هي ضبط k والهيكل العام بحيث يكون للنموذج عمود فقري موثوق به من خلال المطالبة. ومرة أخرى، التدريب مع التفرقة في الحلقة مهم—تتكيف النماذج. إنه مثل تعلم القيادة بناقل حركة يدوي؛ بمجرد أن تحصل على الإيقاع، لن تفوتك السيارة.

واقع النشر: النواة، وذاكرة التخزين المؤقت، والمجدولات

تستحق ملاحظة دعم vLLM الإشارة إليها: DSA ليست مجرد خدعة ورقية؛ هناك عمل حقيقي يتم إدخاله في دعم النواة والجدولة حتى لا يعطل وحدة معالجة الرسومات بعروض التشتيت والتجميع.. تعمل النواة المتفرقة الكتل والعمليات المدمجة وتخطيط ذاكرة التخزين المؤقت KV الدقيق على إنجاح هذه الأشياء أو كسرها. تأتي أسوأ النتائج في الانتباه المتفرق من الأفكار المعقولة تمامًا التي تصطدم بعرض نطاق الذاكرة وتكاليف الإطلاق. عندما يتم التعامل مع هذه الأمور، يغني التفرقة.

أين تتألق DSA

أسئلة وأجوبة ذات سياق طويل حول المستندات المنظمة. يتتبع المزيج المحلي + المنارة الأقسام والإشارات المرجعية المتبادلة دون إغراق الانتباه.

الاستدلال في قاعدة التعليمات البرمجية. تلتقط النوافذ المحلية سياقًا داخل الملف؛ تتنقل الروابط الدورية/العالمية عبر الملفات واستدعاءات الوظائف وعمليات الاستيراد.

الوكلاء ذوو لوحات الخدش. يتيح الانتباه المتفرق للوكيل الاحتفاظ بذاكرة عاملة طويلة دون أن يتدهور إلى هراء بعد الصفحة الخامسة.

أين لا تعمل DSA (حتى الآن)

مطالبات صغيرة. الانتباه الكثيف على ما يرام؛ قد لا يتم استهلاك النفقات العامة المتفرقة.

الشعر المتشابك للغاية أو مطالبات الألغاز التي تتطلب قفزات إبرة في كومة قش دون إشارات هيكلية واضحة. لا يزال بإمكانك ضبط k، لكن الطريقة تحب الأنماط أكثر من الألغاز.

ماذا عن Sider.AI؟

إليك اختبار أي من هذه التقنيات: هل تجعل الأدوات أفضل دون تحويل المستخدمين إلى مهندسي ضمان الجودة غير مدفوعي الأجر؟ في عمليات التشغيل الخاصة بي، تبدو الأدوات التي تدمج الانتباه المتفرق جيدًا—خاصة بالنسبة لمحادثة المستندات والتعليمات البرمجية—أقل مزاجية. Sider.AI تلعب هنا بالفعل: عندما تقوم بلصق مواصفات من 80 صفحة أو التجول في مستودع، فإن القدرة على الاحتفاظ بخيط طويل ومتماسك دون التوقف أو الهلوسة حول الصفحة 47 مهمة. لا تتباهى الحملة التسويقية بـ "التفرقة الدقيقة"، وهذا جيد. يهتم المستخدمون بأنه يظل مستجيبًا، ويحافظ على السياق مستقيمًا، ولا يكلف مثل عطلة نهاية الأسبوع في لاس فيغاس. إذا كنت تعمل مع مدخلات كبيرة وفوضوية، فإن هذه الفئة من خدعة الانتباه هي بالضبط نوع التغيير المخفي الذي يظهر كعدد أقل من الثآليل وإجابات أسرع.

إرشادات عملية: إذا كنت تقرر ما إذا كنت ستستخدم DSA

عادة ما يكون السياق الخاص بك > 32 ألف رمز مميز: نعم، قم بتقييمه.

أنت تمتلك مجموعة النشر الخاصة بك (vLLM، ونواة Triton، وضبط ذاكرة التخزين المؤقت KV): نعم، خاصةً.

أنت عالق بأوزان مدربة بكثافة ولا يمكنك إعادة التدريب: اختبر بعناية؛ ضع في اعتبارك التفرقة الجزئية أو التفرقة الخاصة بالرأس.

أحمال العمل الحساسة لوقت الاستجابة وعالية QPS: هذا هو المكان الذي يهم فيه انحناء المنحنى. قم بقياس p95 و p99.

ويرجى، من أجل حب جميع الأشياء المتعلقة بوحدة معالجة الرسومات، قم بتقييم الأداء بمطالبات حقيقية، وليس lorem ipsum الاصطناعية. تعيش أو تموت الطرق المتفرقة على التوزيعات الواقعية للأهمية.

النقطة الوصفية: التفرقة كذوق جيد

هناك جمالية لهذا. النماذج التي تنتبه إلى كل شيء بالتساوي تشبه الاجتماعات التي يتحدث فيها الجميع. يبدو ديمقراطيًا، ولا ينجز شيئًا. حساسية DSA هي تحريرية: ركز على الأجزاء المثيرة للاهتمام، وحافظ على عمود فقري، واحتفظ بميزانية. إذا كنت تريد درسًا أوسع من التعلم الآلي، فهذا هو. لا تفعل الأنظمة الجيدة كل شيء. إنهم يفعلون الأشياء الصحيحة، بسرعة.

المستقبل المحتوم: التدريب المتفرق، والتقديم المتفرق

سنرى المزيد من النماذج المدربة من النهاية إلى النهاية مع أنماط متفرقة مدمجة. هذا هو المكان الذي تأتي منه آخر 10-15٪ من الجودة والاستقرار: السماح بتحيزات النموذج الاستقرائية بالتوافق مع مسار التقديم. إذا قمت بتقديم متفرق ولكن التدريب مكثف، فأنت تطلب من النموذج تبديل التروس على الطريق السريع. يمكن أن ينجح الأمر، لكن لا تصدم عندما يتمايل.

في غضون ذلك، ستجعل الأطر الأنماط المتفرقة قابلة للتركيب: نوافذ محلية + عالميات دورية + نقاط ارتكاز مكتسبة + رموز مميزة واعية بالاسترجاع. هذا الجزء الأخير—إغلاق الحلقة بين أهمية المسترجع وأهمية الانتباه—يبدو وكأنه الخطوة الواضحة التالية. عندما يبلغ ما تجلبه ما تنتبه إليه، فإنك تتوقف عن التنقل بين نظامين نصف أعمى.

إذًا كيف تعمل DSA؟ الجواب القصير

تختار مجموعة مضغوطة من الرموز المحتملة ذات الصلة لكل رمز—معظمهم من السكان المحليين، وبعضهم من العالميين، وبعض الاختيارات الذكية.

تقوم بتشغيل الانتباه فقط على تلك المجموعة، مما يقلل من الحساب من التربيع إلى الخطي تقريبًا في طول السياق.

تعتمد على النواة الدقيقة وتخطيط ذاكرة التخزين المؤقت بحيث تظهر المدخرات النظرية كمكاسب حقيقية في وقت الاستجابة.

تحافظ على الجودة من خلال الحفاظ على الهيكل والاتصال العالمي الكافي بحيث لا تضيع المراجع بعيدة المدى.

هذا كل شيء. لا بخور ولا تعاويذ. مجرد ذوق جيد مفروض فيما يجب الانتباه إليه.

النهاية الملتوية (لأن هناك واحدة دائمًا)

كل خدعة من خدع الذكاء الاصطناعي لها لحظة خيبة الأمل في النهاية. سيفوت الانتباه المتفرق شيئًا مهمًا، ربما في مطالبة صاغها ناقد ذكي يصر على أن النموذج يجب أن يربط المقطع الثالث بالمقطع السابع والثلاثين عبر اللغات أثناء التلاعب بتوقيع وظيفة. حسنًا. لكن معظم العمل الحقيقي ليس شعرًا/معايير أداء—إنه يطحن من خلال النصوص والتعليمات البرمجية والحقائق. بالنسبة لذلك، فإن DSA ليست مجرد فكرة جيدة. إنه الفرق بين نموذج يتظاهر بقراءة السياق الخاص بك ونموذج يمكنه ذلك بالفعل.

وإذا كان بإمكانك فعل ذلك دون إحداث ثقب في ميزانية السحابة؟ هذا ليس خدعة. هذا تقدم..

الأسئلة الشائعة

س1: كيف يعمل DeepSeek Sparse Attention (DSA) باللغة الإنجليزية البسيطة؟ يقلل DSA الانتباه إلى الرموز المميزة التي تهم—معظمها من النصوص القريبة، وعدد قليل من نقاط الارتكاز العالمية، بالإضافة إلى قائمة قصيرة من الاختيارات عالية الإشارة. بدلاً من مقارنات O(L²)، فإنه يقوم بتشغيل O(Lk)، مع الحفاظ على الجودة من خلال الحفاظ على الهيكل أثناء تقليل الحساب.

س2: هل DSA أفضل من التقسيم أو الاسترجاع للسياق الطويل؟ تحافظ DSA على كل شيء في سلسلة واحدة أثناء تركيز الحساب حيثما يهم؛ يخلق التقسيم منحدرات ويمكن أن يكون الاسترجاع نسيانًا. تمزج أفضل الإعدادات بين الاسترجاع لجلب DSA للاستدلال عبر سياق طويل دون ضريبة التربيع.

س3: هل ستضر DSA بجودة النموذج مقارنة بالاهتمام الكثيف؟ إذا قمت بالتدريب والتقديم مع وضع التفرقة في الاعتبار (وقمت بتعيين k بشكل معقول)، فإن الجودة تصمد—غالبًا ما تكون أفضل للسياقات الطويلة لأن النموذج لا يغرق في أزواج منخفضة القيمة. يمكن أن ينحرف التقديم المتفرق على الأوزان المدربة بكثافة، لذا قم بتقييم الأداء بمطالبات حقيقية.

س4: ما هي أحمال العمل التي تستفيد أكثر من DSA؟ أسئلة وأجوبة حول المستندات ذات السياق الطويل، والتنقل في قاعدة التعليمات البرمجية، ولوحات خدش الوكيل. في أي مكان يرتفع فيه طول التسلسل ويتحول الانتباه الكثيف إلى وقت استجابة وضغط الذاكرة وارتفاع التكاليف.

س5: هل يدعم vLLM DSA للنشر؟ نعم—تظهر المنشورات الحديثة vLLM تدمج دعم DeepSeek الدقيق للاهتمام المتفرق، مع عمل النواة والمجدول لجعله عمليًا في خطوط الإنتاج.