How does DeepSeek Sparse Attention (DSA) work in plain English?

DSA narrows attention to the tokens that matter—mostly nearby text, a few global anchors, plus a short list of high-signal picks. Instead of O(L²) comparisons, it runs O(Lk), keeping quality by preserving structure while cutting compute.

Is DSA better than chunking or retrieval for long context?

DSA keeps everything in one thread while focusing compute where it counts; chunking creates cliffs and retrieval can be forgetful. The best setups mix retrieval for fetching with DSA for reasoning across long context without the quadratic tax.

Will DSA hurt model quality compared to dense attention?

If you train and serve with sparsity in mind (and set k sanely), quality holds up—often better for long contexts because the model isn’t drowning in low-value pairs. Serve-sparse on dense-trained weights can drift, so benchmark with real prompts.

What workloads benefit most from DSA?

Long-context document Q&A, codebase navigation, and agent scratchpads. Anywhere sequence length balloons and dense attention turns into latency, memory pressure, and rising costs.

Does vLLM support DSA for deployment?

Yes—recent posts show vLLM integrating support for DeepSeek’s fine-grained sparse attention, with kernel and scheduler work to make it practical in production pipelines.

"Sparse Attention That Isn’t Sparse Thinking"

توجہ کے میکانزمز میں جو چیز "انقلابی" ہے وہ یہ ہے کہ ہر کوئی ایسے سر ہلاتا ہے جیسے کسی جادوگر کو دیکھ رہا ہو، پھر خاموشی سے امید کرتا ہے کہ کوئی ان سے اس کرتب کی وضاحت کرنے کو نہیں کہے گا۔ ڈیپ سیک سپارس اٹینشن (DeepSeek Sparse Attention) (DSA) بھی ان کرتبوں میں سے ایک ہے—ذہین، تیز، اور اگر آپ باریکیوں پر غور کریں، تو ریاضی کے سو صفحات پڑھے بغیر بھی سمجھ میں آنے والا۔ وعدہ یہ ہے: ذہانت کو برقرار رکھو، کمپیوٹیشن کے ٹیکس کو چھوڑ دو۔ حقیقت یہ ہے: یہ انحصار کرتا ہے، لیکن اس بار توازنیں تازگی بخش طور پر معقول نظر آتی ہیں۔

آئیے اس کو مختصر کرتے ہیں: DSA بڑے لسانی ماڈلز کے لیے صرف ان چیزوں پر توجہ دینے کا ایک طریقہ ہے جو اہمیت رکھتی ہیں۔ نہ کہ کسی حد تک۔ نہ کہ "شاید یہ متعلقہ ہے۔" یہ ایک باریک بینی والا سپارس اٹینشن اسکیم ہے جو فل سیلف اٹینشن سے حاصل ہونے والے کواڈریٹک دھماکے کو کم کرتا ہے—بغیر اس شاخ کو کاٹے جس پر ماڈل کھڑا ہے۔ اگر پرانے ماڈل کی توجہ ایک ایسا کمرہ تھی جہاں ہر لفظ کو دوسرے ہر لفظ سے آئی کانٹیکٹ کرنا ضروری تھا، تو DSA اسے ایک ایسی پارٹی میں بدل دیتا ہے جہاں انٹروورٹس پروان چڑھتے ہیں: براہ راست راستے، کم بے معنی چھوٹی چھوٹی گفتگو کی رکاوٹیں، اور بہت کم شور۔

ڈیپ سیک سپارس اٹینشن (DeepSeek Sparse Attention) حقیقت میں کیا ہے؟

DSA ایک سپارس اٹینشن میکانزم ہے جو سیلف اٹینشن کی کمپیوٹیشنل پیچیدگی کو O(L²) سے O(Lk) تک کم کرتا ہے، جہاں L سیکوینس کی لمبائی ہے اور k ہر ٹوکن کے لیے "رکھے گئے" کنکشنز کی تعداد ہے—منتخب کردہ، ممکنہ طور پر متعلقہ ہمسائے۔ ایک لائن میں یہ خلاصہ ہے۔ کم ریاضی، زیادہ معقولیت: ہر ٹوکن کے خود کو دوسرے ہر ٹوکن سے موازنہ کرنے کے بجائے، DSA ایک ذیلی سیٹ منتخب کرتا ہے—ہمسائے، ہیڈز، ونڈوز، "اینکرز،" جو بھی ہیورسٹک یا سیکھی ہوئی پالیسی ماڈل کے لیے سب سے زیادہ معنی خیز ہو—تاکہ آپ فضولیات پر وقت ضائع نہ کریں۔

اگر آپ کو لگتا ہے کہ یہ شناسا لگتا ہے، تو یہ ہے: سپارس اٹینشن نئی نہیں ہے۔ ہمارے پاس لانگ فارمر، بگ برڈ، بلاک-سپارس کرنلز، اور ایک درجن "لوکل + گلوبل" ہائبرڈز موجود ہیں۔ معمول کا مسئلہ یہ ہے کہ سپارس پیٹرنز یا تو ریکال کو لیک کرتے ہیں (وہ گھاس کے ڈھیر میں سوئی تلاش کرنے سے قاصر رہتے ہیں)، یا ان کو مؤثر طریقے سے نافذ کرنا اتنا تکلیف دہ ہے کہ جو کچھ بھی آپ نظریاتی طور پر بچاتے ہیں وہ کرنل اوورہیڈ کے طور پر دوبارہ ظاہر ہو جاتا ہے۔ DSA کا دعویٰ دوگنا ہے: اول، سپارسٹی پیٹرن عام بلاک سپارسٹی سے زیادہ باریک بینی اور موافق ہے؛ دوم، اسے اینڈ-ٹو-اینڈ اس طرح نافذ کیا گیا ہے کہ یہ حقیقی انفرنس اسٹیکس پر واقعی کام کرتا ہے—vLLM بھی شامل ہے۔

تصور: لائٹننگ انڈیکسر، لان موور نہیں۔

میں نے جو سب سے مددگار مماثلت دیکھی ہے: DSA ایک لائٹننگ انڈیکسر کی طرح کام کرتا ہے۔ یہ پورے میدان کو نہیں کاٹتا؛ یہ اس چیز کی طرف لپکتا ہے جو اہمیت رکھتی ہے—ایک اچھے ایڈیٹر کی طرح جو تین پیراگراف کو کاٹ دیتا ہے اور اس جملے کو رکھتا ہے جو بہترین ہے۔ یہ نظام ہر ٹوکن کے لیے ہائی سگنل کنکشنز کا ایک چھوٹا سیٹ محفوظ رکھتا ہے—کچھ مطابقت اسکورنگ کے ذریعے ٹاپ-کے کے بارے میں سوچیں—اس کے علاوہ ڈھانچے کا ایک پتلا بیک بون (لوکل ونڈوز، وقتاً فوقتاً گلوبل ٹوکنز) تاکہ طویل فاصلے کی ہم آہنگی پاش نہ ہو جائے۔

انجینئرز مماثلت کے بعد والے حصے کی پروا کرتے ہیں: عملی طور پر "مطابقت" کا کیا مطلب ہے؟ DSA کے مختلف مضامین قربت اور سابقہ اہمیت کے لحاظ سے امیدوار کیز کا انتخاب کرنے والے ہیورسٹکس کی طرف اشارہ کرتے ہیں، اس کے بعد ان امیدواروں کے درمیان کمپیکٹ توجہ۔ یہ جادو نہیں ہے؛ یہ ترجیحی علاج ہے۔ آپ واضح ہمسایوں کو رکھتے ہیں (لوکل سیاق و سباق تقریباً ہمیشہ زبان کے لیے مفید ہوتا ہے)، گلوبل "لینڈ مارکس" میں چھڑکتے ہیں، اور انتخابی طور پر توجہ کو امید افزا آؤٹ آف ونڈو ٹوکنز کی طرف بھیجتے ہیں۔ خالص اثر: آپ ریکال کو مفلوج کیے بغیر تلاش کی جگہ کو سائز میں کم کرتے ہیں۔ جب صحیح طریقے سے کیا جائے تو، یہ چھانٹنا کم اور مہذب آداب زیادہ لگتا ہے۔

ریاضی، کم سے کم ایڈیشن

مکمل سیلف اٹینشن: O(L²d)، جہاں d ہیڈ ڈائمینشن ہے۔

DSA: O(Lkd)۔ فکسڈ k کے لیے، یہ L میں لکیری ہے۔ یہ طویل سیاق و سباق کے لیے اہم ہے۔ 128K ٹوکنز پر، آپ کا GPU بل آپ کا شکریہ ادا کرتا ہے۔

ماڈل فی ٹوکن ایک ڈائنیمک امیدوار سیٹ برقرار رکھتا ہے۔ آپ امیدوار کے انتخاب کے علاوہ ان کے درمیان اصل توجہ کی قیمت ادا کرتے ہیں۔ اگر امیدوار کا انتخاب ویکٹرائزڈ اور کیش سے آگاہ ہے، تو آپ جیت جاتے ہیں۔ اگر نہیں، تو آپ ایک غبارہ سکیڑ رہے ہیں۔

تمام سپارس طریقوں میں یہی تناؤ ہے: ایسمٹوٹکس کو کم کریں، لیکن اپنے ڈیٹا کی نقل و حرکت اور کرنل لانچ اوورہیڈ میں اسے دوبارہ متعارف نہ کروائیں۔ DSA کے ارد گرد کے نفاذ کرنل کی سطح کی حمایت اور شیڈولر انٹیگریشن پر زور دیتے ہیں، اور حالیہ پوسٹس vLLM سپورٹ کے لینڈنگ کو بالکل اس لیے دکھاتی ہیں تاکہ اس کو تعیناتی کی ترتیبات میں حقیقی بنایا جا سکے۔

DSA اب کیوں اہم ہے؟

کیونکہ طویل سیاق و سباق نئی اسکرین سائز کی جنگ ہے۔ ہر کوئی 200K ٹوکنز اور اس سے زیادہ چاہتا ہے—اسکرپٹس، کوڈبیسز، PDFs جو آپ کے ضمیر کے سائز کے ہوں۔ ان لمبائیوں پر کواڈریٹک توجہ لیٹنسی، تھرو پٹ اور لاگت کے لیے ایک غیر شروعات ہے۔ آپ اسے ہوشیار چنکنگ اور بازیافت کے ساتھ جعلی بنا سکتے ہیں، لیکن یہ آپ کی کار میں ایک بک شیلف لگانے کے مترادف ہے کیونکہ آپ کا ٹرنک بھرتا رہتا ہے۔ DSA کا استدلال آسان ہے: اصل توجہ کے مرحلے کو بیوقوفانہ حد تک مہنگا نہ بنائیں۔

ایک ضمنی فائدہ استحکام ہے۔ بہت طویل سلسلوں پر مکمل توجہ عددی طور پر مشکل اور میموری شور والی ہو سکتی ہے۔ سپارس اٹینشن ورکنگ سیٹ کو سکیڑتی ہے اور کم جوڑی وار اسکورز میں ڈوب کر ماڈل کے "بھولنے" کے امکانات کو کم کرتی ہے۔ آپ ساخت کا ایک بیک بون اور اس کے اوپر موافقت کا ایک چھوٹا سا حصہ رکھتے ہیں۔ یہ ایک عملی سمجھوتہ ہے جو ایک بار پھر ایک کاغذی ڈیمو کے بجائے ایک انجینئرنگ فیصلے کی طرح محسوس ہوتا ہے۔

سپارس زو میں DSA کہاں فٹ بیٹھتا ہے

فکسڈ پیٹرنز (لوکل ونڈوز، ڈائلیشنز): تیز، لیکن نازک۔ طویل فاصلے کے کراس ریفرنسز سے محروم ہوجاتا ہے جب تک کہ آپ کا لک اسٹیٹ میکس نہ ہو۔

گلوبل ٹوکنز: اینکرز کا اضافہ کرتا ہے۔ بہتر، لیکن ہاتھ لہرانے والا۔ آپ ہر چیز پر "CLS" نہیں لگا سکتے اور اسے ریکال نہیں کہہ سکتے۔

سیکھی ہوئی پالیسیوں کے ذریعے روٹنگ: ممکنہ طور پر مثالی، آپریشنل طور پر گندا۔ تربیتی پیچیدگیاں اور نازک انفرنس۔

DSA کا باریک بینی والا ہائبرڈ: فی ٹوکن ایک کمپیکٹ امیدوار سیٹ کیوریٹ کریں جو لوکلٹی، اسٹرکچرڈ گلوبلز اور ہائی سگنل پکس کو ملاتا ہے۔ نقطہ ہوشیار ہونا نہیں ہے—یہ مستقل طور پر اتنا اچھا ہونا ہے کہ آپ کی لیٹنسی اور کوالٹی دونوں اسکیل کریں۔

کارکردگی: O(L²) ٹیکس ریفنڈ

اب تک کی کوریج کافی لاگت میں کمی کا دعوی کرتی ہے—"آدھی" لاگتیں بے تابی سے بھرے ٹکڑوں میں دکھائی دیتی ہیں—لیکن نقطہ عین تعداد نہیں ہے، یہ ہے کہ اسکیلنگ کا منحنی خط طویل تر پرامپٹس اور اعلیٰ ہم آہنگی کے لیے واپس قابل عمل ہو جاتا ہے۔ اگر آپ کے ورک لوڈز یہ ہیں:

100+ صفحات پر RAG اور دستاویز چیٹ،

ملٹی فائل کوڈ نیویگیشن،

ٹول استعمال کرنے والے ایجنٹس جو طویل اسکریچ پیڈز رکھتے ہیں،

...DSA فی ٹوکن کمپیوٹ اور میموری کو کم کرتا ہے۔ آپ سیاق و سباق کو وہاں دھکیل سکتے ہیں جہاں یہ اصل میں مفید ہے بجائے اس کے کہ ونڈوڈ ہیکس کی پریڈ کا انعقاد کیا جائے۔ ابتدائی vLLM سپورٹ سے پتہ چلتا ہے کہ یہ صرف بینچ بلنگ نہیں ہے—یہ وہاں چلتا ہے جہاں لوگ ماڈلز کو تعینات کرتے ہیں۔

انتباہات (a.k.a. منگل کے روز کسی کو فتح کا اعلان کیوں نہیں کرنا چاہیے)

امیدوار کا انتخاب مفت نہیں ہے۔ اگر انتخاب کا معمول کیش لائنوں پر ٹرپ ہو جاتا ہے یا آپ کو CPU-GPU پنگ پونگ میں ڈال دیتا ہے، تو آپ کی سپارسٹی کی جیتیں بخارات بن جاتی ہیں۔

k ایک بجٹ ہے، پیدائشی حق نہیں ہے۔ بہت چھوٹا اور آپ ان کراس ریفرنسز کو چھوڑ دیتے ہیں جو اہمیت رکھتے ہیں۔ بہت بڑا اور آپ واپس گھنے ہونے کی طرف بڑھ جاتے ہیں۔

تربیت بمقابلہ انفرنس کی عدم مطابقت۔ اگر آپ کے ماڈل نے گھنے تربیت حاصل کی ہے اور آپ اسے انفرنس پر سپارس چلاتے ہیں، تو کوالٹی میں فرق کی توقع کریں۔ DSA کے مضبوط ترین نتائج اس وقت ظاہر ہوتے ہیں جب سپارسٹی تربیتی غذا کا حصہ ہو، نہ کہ صرف خدمت کے وقت کی گارنش۔

لمبی دم کی عجیب و غریبیت۔ سپارس پیٹرنز بعض اوقات کہیں سے بھی آنے والے کال بیک پر 30K ٹوکنز بعد غائب ہو جاتے ہیں۔ اچھے ہائبرڈز وقتاً فوقتاً گلوبلز یا سیکھے ہوئے اینکرز کے ساتھ ہیج کرتے ہیں۔

اگر یہ سب کسی کتاب کے لیے ایک اچھا انڈیکس بنانے کی طرح لگتا ہے، تو یہ اس لیے ہے کہ یہ ہے۔ بہت چھوٹا اور آپ کو کچھ نہیں مل سکتا؛ بہت لمبا اور یہ صرف دوبارہ کتاب ہے۔

DSA غالباً کیا رکھنا ہے اس کا انتخاب کیسے کرتا ہے۔

تفصیلات نفاذ کے لحاظ سے مختلف ہوتی ہیں، لیکن پلے بک اس طرح نظر آتی ہے:

لوکل ونڈو: ایک سلائیڈنگ ونڈو کے اندر ہمسایوں کو رکھیں—زیادہ تر لسانی ڈھانچہ لوکل ہوتا ہے۔ 2) وقتاً فوقتاً/گلوبل ٹوکنز: باقاعدہ "بیکنز" داخل کریں جو ہمیشہ عالمی سطح پر جڑتے ہیں۔ 3) سلیئنس اسکورنگ: ہلکے وزن والے سگنلز استعمال کریں—سابقہ پرت ایکٹیویشنز، کیشڈ اہمیت، یا ٹاپ-کے مماثلت جیسے تخمینوں سے—اضافی دور دراز ٹوکنز کو منتخب کرنے کے لیے۔ 4) کمپیکٹ توجہ: صرف رکھے ہوئے سیٹ کے یونین پر توجہ چلائیں۔ 5) فی پرت دہرائیں، جس سے مختلف ہیڈز کو مختلف ڈھانچے کو ترجیح دینے کی اجازت ملے۔

یہ راسخ العقیدہ نہیں ہے؛ یہ صرف سب سے کم حیران کن چیز ہے جو کام کر سکتی ہے۔ اور بظاہر یہ کرتا ہے، جدید انفرنس اسٹیکس میں آپریشنل سپورٹ لینڈنگ کو دیکھتے ہوئے۔

DSA بمقابلہ چنکنگ بمقابلہ بازیافت: اپنا زہر منتخب کریں۔

معصوم چنکنگ: تیز، لیکن گونگا—سیاق و سباق کی حدود چٹانیں بن جاتی ہیں۔ تھرو پٹ کے لیے اچھا، کسی بھی لطیف چیز کے لیے برا۔

بازیافت سے بڑھا ہوا جنریشن: ہوشیار، لیکن نازک—بازیافت کرنے والے پر منحصر ہے کہ وہ یاد رکھے کہ جنریٹر کو بعد میں کیا ضرورت ہوگی۔

DSA طرز کی سپارس اٹینشن: پورے تھریڈ کو سیاق و سباق میں رکھتی ہے، کمپیوٹ اس جگہ پر مرکوز ہے جہاں اس کی گنتی ہوتی ہے۔ یہ بازیافت کی جگہ نہیں لیتا؛ یہ بازیافت کو ایک کمزور سہارا بناتا ہے۔

ایماندار حل ایک مرکب ہے: متعلقہ دستاویزات کو کھینچنے کے لیے بازیافت، پگھلنے کے بغیر طویل سلسلوں پر استدلال کرنے کے لیے سپارس اٹینشن۔ آپ اپنے کلاؤڈ بل سے نفرت کیے بغیر دونوں کام کر سکتے ہیں۔

کوالٹی: کیا یہ اب بھی سمجھتا ہے؟

دس لاکھ ڈالر کا سوال یہ ہے کہ کیا سپارس اٹینشن خاموشی سے جملوں کے درمیان معنی کو گرا دیتا ہے۔ ڈیپ سیک ماڈلز کے لیے ابتدائی اطلاعات سے پتہ چلتا ہے کہ طویل سیاق و سباق پر کوالٹی برقرار رہتی ہے یا بہتر ہوتی ہے کیونکہ ماڈل بے معنی جوڑی وار اسکورز پر احتمال کی ماس ضائع نہیں کر رہا ہے۔ چال یہ ہے کہ k اور گلوبل اسٹرکچر کو ٹیون کیا جائے تاکہ ماڈل کے پاس پرامپٹ کے ذریعے ایک قابل اعتماد بیک بون ہو۔ اور دوبارہ، لوپ میں سپارسٹی کے ساتھ تربیت اہمیت رکھتی ہے—ماڈلز موافقت کرتے ہیں۔ یہ ایک مینوئل ٹرانسمیشن کے ساتھ گاڑی چلانا سیکھنے کی طرح ہے۔ ایک بار جب آپ کو تال مل جاتی ہے، تو آپ آٹو کو یاد نہیں کرتے۔

تعیناتی کی حقیقت: کرنلز، کیشز، شیڈولرز

vLLM سپورٹ نوٹ کال آؤٹ کرنے کے قابل ہے: DSA صرف ایک کاغذی کرتب نہیں ہے۔ اس میں کرنل سپورٹ اور شیڈولنگ میں حقیقی کام ہو رہا ہے تاکہ یہ اسکیٹر گیدر تھیٹرکس کے ساتھ GPU کو روک نہ سکے۔ بلاک-سپارس کرنلز، فیوزڈ اوپس، اور کیئر فل KV-کیش لے آؤٹ اس چیز کو بناتے یا توڑتے ہیں۔ سپارس اٹینشن میں بدترین نتائج میموری بینڈوڈتھ اور لانچ اوورہیڈ کے ساتھ ٹکرانے والے بالکل معقول آئیڈیاز سے آتے ہیں۔ جب ان کو سنبھالا جاتا ہے، تو سپارسٹی گاتی ہے۔

DSA کہاں چمکتا ہے

ساختہ دستاویزات پر طویل سیاق و سباق سوال و جواب۔ لوکل + بیکن مکس سیکشنز اور کراس ریفرنسز کو توجہ کو سیلاب کیے بغیر ٹریک کرتا ہے۔

کوڈبیس ریزننگ۔ لوکل ونڈوز انٹرا فائل سیاق و سباق کو پکڑتے ہیں؛ وقتاً فوقتاً/گلوبل لنکس فائلوں، فنکشن کالز اور امپورٹس میں سوار ہوتے ہیں۔

اسکریچ پیڈز والے ایجنٹس۔ سپارس اٹینشن ایجنٹ کو صفحہ پانچ کے بعد بکواس میں تنزلی کیے بغیر ایک طویل ورکنگ میموری رکھنے دیتا ہے۔

DSA کہاں نہیں (ابھی تک)

چھوٹے پرامپٹس۔ گھنی توجہ ٹھیک ہے؛ سپارس اوورہیڈ معاوضہ نہیں دے سکتا۔

انتہائی الجھے ہوئے شاعری یا پہیلی پرامپٹس جن کو واضح ساختی اشاروں کے بغیر گھاس کے ڈھیر میں سوئی کی چھلانگوں کی ضرورت ہوتی ہے۔ آپ اب بھی k کو ٹیون کر سکتے ہیں، لیکن طریقہ کار پیٹرن کو پہیلیوں سے زیادہ پسند کرتا ہے۔

Sider.AI کے بارے میں کیا خیال ہے؟

ان میں سے کسی بھی تکنیک کے لیے یہاں ٹیسٹ یہ ہے: کیا وہ صارفین کو غیر ادا شدہ QA انجینئرز میں تبدیل کیے بغیر ٹولز کو بہتر بناتے ہیں؟ میرے رن میں، وہ ٹولز جو سپارس اٹینشن کو اچھی طرح سے مربوط کرتے ہیں—خاص طور پر دستاویز اور کوڈ چیٹ کے لیے—کم مزاج محسوس ہوتے ہیں۔ Sider.AI یہاں اصل میں کھیلتا ہے: جب آپ 80 صفحات کی اسپیکس میں پیسٹ کر رہے ہیں یا ریپو کے ذریعے مشقت کر رہے ہیں، تو بغیر روکے یا صفحہ 47 کے بارے میں ہالو سائنیٹ کیے ایک طویل، مربوط تھریڈ کو برقرار رکھنے کی صلاحیت اہمیت رکھتی ہے۔ مارکیٹنگ "باریک بینی والی سپارسٹی" کے بارے میں بڑائی نہیں کرتی، اور یہ ٹھیک ہے۔ صارفین کو اس کی پرواہ ہے کہ یہ جوابدہ رہے، سیاق و سباق کو سیدھا رکھے، اور لاس ویگاس میں ویک اینڈ کی طرح خرچ نہ کرے۔ اگر آپ بڑے، گندے ان پٹس کے ساتھ کام کر رہے ہیں، تو توجہ کی اس کلاس کا کرتب بالکل اس قسم کی انڈر دی ہڈ تبدیلی ہے جو کم خامیوں اور تیز جوابات کے طور پر ظاہر ہوتی ہے۔

عملی رہنمائی: اگر آپ DSA استعمال کرنے یا نہ کرنے کا فیصلہ کر رہے ہیں

آپ کا سیاق و سباق معمول کے مطابق >32K ٹوکنز ہے: ہاں، اس کا جائزہ لیں۔

آپ اپنے تعیناتی اسٹیک کے مالک ہیں (vLLM, Triton kernels, KV-cache tuning): ہاں، خاص طور پر۔

آپ گھنے تربیت یافتہ وزن کے ساتھ پھنس گئے ہیں اور دوبارہ تربیت نہیں کر سکتے: احتیاط سے جانچیں۔ جزوی سپارسٹی یا ہیڈ-اسپیسیفک سپارسٹی پر غور کریں۔

لیٹنسی حساس، ہائی-QPS ورک لوڈز: یہ وہ جگہ ہے جہاں منحنی خط کا موڑنا اہمیت رکھتا ہے۔ p95 اور p99 کی پیمائش کریں۔

اور براہ کرم، GPU کی تمام چیزوں کی محبت کے لیے، حقیقی پرامپٹس کے ساتھ بینچ مارک کریں، نہ کہ مصنوعی لورم ایپسوم کے ساتھ۔ سپارس طریقے مطابقت کی حقیقی تقسیم پر زندہ رہتے یا مر جاتے ہیں۔

میٹا پوائنٹ: سپارسٹی بطور اچھا ذوق

اس میں ایک جمالیات ہے۔ وہ ماڈلز جو ہر چیز پر یکساں طور پر توجہ دیتے ہیں وہ ان ملاقاتوں کی طرح ہیں جہاں ہر کوئی بات کرتا ہے۔ جمہوری نظر آتا ہے، کچھ بھی مکمل نہیں ہوتا۔ DSA کی حساسیت ادارتی ہے: دلچسپ حصوں پر توجہ مرکوز کریں، ایک بیک بون برقرار رکھیں، اور ایک بجٹ رکھیں۔ اگر آپ مشین لرننگ سے وسیع تر سبق چاہتے ہیں، تو وہ یہ ہے۔ اچھے نظام سب کچھ نہیں کرتے۔ وہ صحیح چیزیں کرتے ہیں، جلدی سے۔

ناگزیر مستقبل: ٹرین سپارس، سرو سپارس

ہم سپارس پیٹرنز میں پکی ہوئی اینڈ-ٹو-اینڈ تربیت یافتہ مزید ماڈلز دیکھیں گے۔ وہیں سے کوالٹی اور استحکام کے آخری 10-15% آتے ہیں: ماڈل کے انڈکٹیو تعصبات کو خدمت کے راستے کے ساتھ ہم آہنگ کرنے دینا۔ اگر آپ سپارس سرو کرتے ہیں لیکن گھنے تربیت دیتے ہیں، تو آپ ماڈل کو فری وے پر گیئرز تبدیل کرنے کے لیے کہہ رہے ہیں۔ یہ کام کر سکتا ہے، لیکن اس وقت حیران نہ ہوں جب یہ لڑکھڑاتا ہے۔

دریں اثنا، فریم ورکس سپارس پیٹرنز کو کمپوزایبل بنائیں گے: لوکل ونڈوز + وقتاً فوقتاً گلوبلز + سیکھے ہوئے اینکرز + بازیافت سے آگاہ ٹوکنز۔ وہ آخری بٹ—بازیافت کرنے والے سلیئنس اور توجہ سلیئنس کے درمیان لوپ کو بند کرنا—اگلا واضح قدم محسوس ہوتا ہے۔ جب جو کچھ آپ بازیافت کرتے ہیں وہ آپ کی توجہ کو مطلع کرتا ہے، تو آپ دو آدھی اندھی نظاموں کے درمیان پنگ پونگ کرنا بند کر دیتے ہیں۔

تو DSA کیسے کام کرتا ہے؟ مختصر جواب

یہ ہر ٹوکن کے لیے ممکنہ طور پر متعلقہ ٹوکنز کا ایک کمپیکٹ سیٹ منتخب کرتا ہے—زیادہ تر لوکلز، کچھ گلوبلز، کچھ اسمارٹ پکس۔

یہ صرف اس سیٹ پر توجہ چلاتا ہے، کمپیوٹ کو کواڈریٹک سے تقریبا لکیری سیاق و سباق کی لمبائی میں کم کرتا ہے۔

یہ محتاط کرنلز اور کیش لے آؤٹ پر انحصار کرتا ہے تاکہ نظریاتی بچتیں حقیقی لیٹنسی جیتنے کے طور پر ظاہر ہوں۔

یہ ساخت اور کافی گلوبل کنیکٹیویٹی کو محفوظ رکھ کر کوالٹی کو برقرار رکھتا ہے تاکہ طویل فاصلے کے حوالہ جات ضائع نہ ہوں۔

بس اتنا ہی ہے۔ کوئی لوبان نہیں، کوئی منتر نہیں۔ صرف اس بات میں نافذ کردہ اچھا ذوق کہ کس پر توجہ دی جائے۔

موڑ اختتام (کیونکہ ہمیشہ ایک ہوتا ہے)

ہر AI کرتب میں بالآخر مایوسی کا لمحہ آتا ہے۔ سپارس اٹینشن کسی اہم چیز سے محروم ہو جائے گا، شاید کسی ہوشیار نقاد کے ذریعہ تیار کردہ پرامپٹ میں جو اصرار کرتا ہے کہ ماڈل کو زبانوں کے پار ایک فنکشن دستخط کو جگل کرتے ہوئے اسٹانزا تین کو اسٹانزا سینتیس سے جوڑنا چاہئے۔ ٹھیک ہے۔ لیکن زیادہ تر حقیقی کام شاعری سلاش بینچ مارک نہیں ہے—یہ متن، کوڈ اور حقائق کے ذریعے پیس رہا ہے۔ اس کے لیے، DSA صرف ایک اچھا خیال نہیں ہے۔ یہ ایک ماڈل کے درمیان فرق ہے جو آپ کے سیاق و سباق کو پڑھنے کا بہانہ کرتا ہے اور ایک جو واقعی کر سکتا ہے۔

اور اگر آپ کلاؤڈ بجٹ کے ذریعے سوراخ کیے بغیر ایسا کر سکتے ہیں؟ یہ کوئی کرتب نہیں ہے۔ یہ پیشرفت ہے۔

اکثر پوچھے جانے والے سوالات

Q1: ڈیپ سیک سپارس اٹینشن (DeepSeek Sparse Attention) (DSA) عام انگریزی میں کیسے کام کرتا ہے؟ DSA توجہ کو ان ٹوکنز تک محدود کرتا ہے جو اہمیت رکھتے ہیں—زیادہ تر قریبی متن، چند گلوبل اینکرز، اس کے علاوہ ہائی سگنل پکس کی ایک مختصر فہرست۔ O(L²) موازنہ کرنے کے بجائے، یہ O(Lk) چلاتا ہے، کمپیوٹ کو کم کرتے ہوئے ساخت کو محفوظ رکھ کر کوالٹی کو برقرار رکھتا ہے۔

Q2: کیا طویل سیاق و سباق کے لیے DSA چنکنگ یا بازیافت سے بہتر ہے؟ DSA ہر چیز کو ایک تھریڈ میں رکھتا ہے جبکہ کمپیوٹ کو اس جگہ پر مرکوز کرتا ہے جہاں اس کی گنتی ہوتی ہے؛ چنکنگ چٹانیں بناتی ہے اور بازیافت بھلکڑ ہو سکتی ہے۔ بہترین سیٹ اپ کواڈریٹک ٹیکس کے بغیر طویل سیاق و سباق میں استدلال کرنے کے لیے DSA کے ساتھ بازیافت کو ملا دیتے ہیں۔

Q3: کیا DSA گھنی توجہ کے مقابلے میں ماڈل کوالٹی کو نقصان پہنچائے گا؟ اگر آپ سپارسٹی کو ذہن میں رکھتے ہوئے تربیت اور خدمت کرتے ہیں (اور k کو معقول طور پر سیٹ کرتے ہیں)، تو کوالٹی برقرار رہتی ہے—اکثر طویل سیاق و سباق کے لیے بہتر کیونکہ ماڈل کم قیمت والی جوڑیوں میں نہیں ڈوب رہا ہے۔ گھنے تربیت یافتہ وزن پر سرو-سپارس ڈرفٹ کر سکتا ہے، لہذا حقیقی پرامپٹس کے ساتھ بینچ مارک کریں۔

Q4: کن ورک لوڈز کو DSA سے سب سے زیادہ فائدہ ہوتا ہے؟ طویل سیاق و سباق دستاویز سوال و جواب، کوڈبیس نیویگیشن، اور ایجنٹ اسکریچ پیڈز۔ کہیں بھی سیکوینس کی لمبائی کے غبارے اور گھنی توجہ لیٹنسی، میموری پریشر اور بڑھتی ہوئی لاگتوں میں بدل جاتی ہے۔

Q5: کیا vLLM تعیناتی کے لیے DSA کی حمایت کرتا ہے؟ ہاں—حالیہ پوسٹس ڈیپ سیک کے باریک بینی والے سپارس اٹینشن کے لیے vLLM انٹیگریٹنگ سپورٹ کو دکھاتی ہیں، جس میں کرنل اور شیڈولر کا کام اسے پروڈکشن پائپ لائنز میں عملی بناتا ہے۔

"Sparse Attention That Isn’t Sparse Thinking" کا ترجمہ

اکثر پوچھے جانے والے سوالات