How does DeepSeek Sparse Attention (DSA) work in plain English?

DSA narrows attention to the tokens that matter—mostly nearby text, a few global anchors, plus a short list of high-signal picks. Instead of O(L²) comparisons, it runs O(Lk), keeping quality by preserving structure while cutting compute.

Is DSA better than chunking or retrieval for long context?

DSA keeps everything in one thread while focusing compute where it counts; chunking creates cliffs and retrieval can be forgetful. The best setups mix retrieval for fetching with DSA for reasoning across long context without the quadratic tax.

Will DSA hurt model quality compared to dense attention?

If you train and serve with sparsity in mind (and set k sanely), quality holds up—often better for long contexts because the model isn’t drowning in low-value pairs. Serve-sparse on dense-trained weights can drift, so benchmark with real prompts.

What workloads benefit most from DSA?

Long-context document Q&A, codebase navigation, and agent scratchpads. Anywhere sequence length balloons and dense attention turns into latency, memory pressure, and rising costs.

Does vLLM support DSA for deployment?

Yes—recent posts show vLLM integrating support for DeepSeek’s fine-grained sparse attention, with kernel and scheduler work to make it practical in production pipelines.

"विरल ध्यान जो विरल सोच नहीं है"

“क्रांतिकारी” अटेंशन मैकेनिज्म के बारे में यह है कि हर कोई ऐसे सिर हिलाता है जैसे वे कोई जादूगर देख रहे हों, फिर चुपचाप उम्मीद करते हैं कि कोई भी उनसे चाल के बारे में बताने के लिए नहीं कहेगा। DeepSeek Sparse Attention (DSA) उन चालों में से एक है—चतुर, तेज़, और, यदि आप बारीकियों पर ध्यान दें, तो वास्तव में सौ पृष्ठों के गणित को बिना हाँफे समझ में आ जाता है। वादा: बुद्धिमत्ता बनाए रखें, कंप्यूट-टैक्स को छोड़ दें। वास्तविकता: यह निर्भर करता है, लेकिन इस बार ट्रेड-ऑफ ताज़ा रूप से समझदार दिखते हैं।

चलिए इसे स्पष्ट करते हैं: DSA बड़े भाषा मॉडल के लिए केवल उन चीज़ों पर ध्यान देने का एक तरीका है जो मायने रखती हैं। कुछ-कुछ नहीं। "शायद यह प्रासंगिक है" नहीं। यह एक बेहतरीन स्पार्स अटेंशन स्कीम है जो फुल सेल्फ-अटेंशन से मिलने वाले द्विघात विस्फोट को काटती है—बिना उस शाखा को काटे जिस पर मॉडल खड़ा है। यदि पुराने मॉडल का अटेंशन एक ऐसा कमरा था जहाँ हर शब्द को हर दूसरे शब्द के साथ आँखें मिलानी होती हैं, तो DSA इसे एक ऐसी पार्टी में बदल देता है जहाँ अंतर्मुखी लोग फलते-फूलते हैं: सीधे रास्ते, कम अर्थहीन छोटी-मोटी बातें, और बहुत कम शोर।

DeepSeek Sparse Attention वास्तव में क्या है?

DSA एक स्पार्स अटेंशन मैकेनिज्म है जो सेल्फ-अटेंशन की कम्प्यूटेशनल जटिलता को O(L²) से O(Lk) तक कम कर देता है, जहाँ L सीक्वेंस की लंबाई है और k प्रति टोकन "रखे" कनेक्शनों की संख्या है—चुने हुए, संभवतः प्रासंगिक पड़ोसी। एक पंक्ति में यही पिच है। कम गणित, अधिक समझ: हर टोकन को हर दूसरे टोकन से तुलना करने के बजाय, DSA एक सबसेट चुनता है—पड़ोसी, हेड्स, विंडोज, "एंकर," जो भी ह्यूरिस्टिक या सीखी गई नीति मॉडल के लिए सबसे अधिक समझ में आती है—ताकि आप फ़्लफ़ पर समय बर्बाद न करें।

अगर आपको लगता है कि यह परिचित लगता है, तो यह है: स्पार्स अटेंशन नया नहीं है। हमारे पास Longformer, BigBird, ब्लॉक-स्पार्स कर्नेल और एक दर्जन "स्थानीय + वैश्विक" हाइब्रिड हैं। सामान्य समस्या यह है कि स्पार्स पैटर्न या तो रिकॉल को लीक करते हैं (वे घास के ढेर में सुई को खो देते हैं), या उन्हें कुशलता से लागू करना इतना मुश्किल है कि आप जो भी सैद्धांतिक रूप से बचाते हैं वह कर्नेल ओवरहेड के रूप में फिर से प्रकट होता है। DSA का दावा दो गुना है: पहला, स्पार्सिटी पैटर्न गार्डन-वैरायटी ब्लॉक स्पार्सिटी की तुलना में अधिक बारीक और अनुकूली है; दूसरा, इसे एंड-टू-एंड तरीके से लागू किया गया है जो वास्तविक इंफेरेंस स्टैक—vLLM सहित—पर वास्तव में काम करता है।

अंतर्ज्ञान: लाइटनिंग इंडेक्सर, लॉन मोवर नहीं

मैंने जो सबसे उपयोगी सादृश्य देखा है: DSA एक लाइटनिंग इंडेक्सर की तरह काम करता है। यह पूरे मैदान को नहीं काटता; यह उस चीज़ पर झपटता है जो मायने रखती है—एक अच्छे संपादक की तरह जो तीन पैराग्राफ को काट देता है और उस वाक्य को रखता है जो गाता है। सिस्टम प्रति टोकन उच्च-सिग्नल कनेक्शनों का एक छोटा सेट रखता है—कुछ प्रासंगिकता स्कोरिंग द्वारा टॉप-k के बारे में सोचें—साथ ही संरचना की एक पतली रीढ़ (स्थानीय विंडो, आवधिक वैश्विक टोकन) ताकि लंबी दूरी की सामंजस्य मश में न बदल जाए।

इंजीनियरों को सादृश्य के बाद वाले हिस्से की परवाह है: परिचालन रूप से "प्रासंगिकता" का क्या अर्थ है? विभिन्न DSA राइट-अप ह्यूरिस्टिक्स पर संकेत देते हैं जो निकटता और पूर्व महत्व द्वारा उम्मीदवार कुंजियों का चयन करते हैं, जिसके बाद उन उम्मीदवारों के बीच कॉम्पैक्ट अटेंशन होता है। यह जादू नहीं है; यह ट्राइएज है। आप स्पष्ट पड़ोसियों को रखते हैं (स्थानीय संदर्भ लगभग हमेशा भाषा के लिए उपयोगी होता है), वैश्विक "लैंडमार्क" में छिड़काव करते हैं, और चुनिंदा रूप से अटेंशन को आशाजनक आउट-ऑफ़-विंडो टोकन पर रूट करते हैं। शुद्ध प्रभाव: आप रिकॉल को अपंग किए बिना खोज स्थान को आकार में लाते हैं। जब सही ढंग से किया जाता है, तो यह प्रूनिंग की तुलना में सभ्य शिष्टाचार जैसा लगता है।

गणित, न्यूनतम संस्करण

फुल सेल्फ-अटेंशन: O(L²d), जहाँ d हेड डायमेंशन है।

DSA: O(Lkd)। फिक्स्ड k के लिए, यह L में लीनियर-इश है। यह लंबे संदर्भों के लिए मायने रखता है। 128K टोकन पर, आपका GPU बिल आपको धन्यवाद देता है।

मॉडल प्रति टोकन एक डायनेमिक उम्मीदवार सेट रखता है। आप उम्मीदवार चयन के साथ-साथ उनके बीच वास्तविक अटेंशन के लिए भुगतान करते हैं। यदि उम्मीदवार चयन वेक्टरयुक्त और कैश-अवेयर है, तो आप जीतते हैं; यदि नहीं, तो आप एक गुब्बारे को निचोड़ रहे हैं।

स्पार्स विधियों में यही तनाव है: एसिम्प्टोटिक्स को कम करें, लेकिन अपने डेटा मूवमेंट और कर्नेल लॉन्च ओवरहेड में इसे फिर से न डालें। DSA के आसपास के कार्यान्वयन कर्नेल-स्तरीय समर्थन और शेड्यूलर एकीकरण पर जोर देते हैं, और हाल के पोस्ट दिखाते हैं कि vLLM समर्थन ठीक यही लैंडिंग कर रहा है ताकि इसे तैनाती सेटिंग्स में वास्तविक बनाया जा सके।

DSA अब क्यों मायने रखता है?

क्योंकि लंबा संदर्भ नई स्क्रीन साइज़ वॉर है। हर कोई 200K टोकन और उससे अधिक चाहता है—स्क्रिप्ट, कोडबेस, PDF आपके विवेक के आकार के। उन लंबाई पर द्विघात अटेंशन विलंबता, थ्रूपुट और लागत के लिए एक नॉन-स्टार्टर है। आप इसे चतुर चंकिंग और पुनर्प्राप्ति के साथ नकली बना सकते हैं, लेकिन यह आपकी कार में एक बुकशेल्फ़ स्थापित करने जैसा है क्योंकि आपका ट्रंक भरता रहता है। DSA का तर्क सरल है: वास्तविक अटेंशन स्टेप को बेवकूफी से महंगा न बनाएं।

एक साइड बेनिफिट स्थिरता है। बहुत लंबे सीक्वेंस पर फुल अटेंशन संख्यात्मक रूप से स्पर्शपूर्ण और मेमोरी शोर हो सकता है। स्पार्स अटेंशन वर्किंग सेट को सिकोड़ता है और कमजोर जोड़ीदार स्कोर में डूबकर मॉडल के "भूलने" की संभावना को कम करता है। आप संरचना की एक रीढ़ और शीर्ष पर अनुकूलीपन का एक छोटा सा टुकड़ा रखते हैं। यह एक व्यावहारिक समझौता है जो एक पेपर डेमो के बजाय एक इंजीनियरिंग निर्णय की तरह लगता है।

स्पार्स चिड़ियाघर में DSA कहाँ फिट बैठता है

फिक्स्ड पैटर्न (स्थानीय विंडो, डाइलेशन): तेज़, लेकिन भंगुर। लंबी दूरी के क्रॉस-रेफरेंस को याद करता है जब तक कि आपकी किस्मत का स्तर अधिकतम न हो।

ग्लोबल टोकन: एंकर जोड़ता है। बेहतर, लेकिन हाथ-हिलाऊ। आप हर चीज़ पर "CLS" नहीं थप्पड़ मार सकते और इसे रिकॉल कह सकते हैं।

सीखी गई नीतियों के माध्यम से रूटिंग: संभावित रूप से आदर्श, परिचालन रूप से गड़बड़। प्रशिक्षण जटिलताएं और भंगुर इंफेरेंस।

DSA का बेहतरीन हाइब्रिड: प्रति टोकन एक कॉम्पैक्ट उम्मीदवार सेट क्यूरेट करें जो स्थानीयता, संरचित ग्लोबल्स और उच्च-सिग्नल पिक्स को मिलाता है। मुद्दा चतुर होना नहीं है—यह लगातार इतना अच्छा होना है कि आपकी विलंबता और गुणवत्ता दोनों स्केल करें।

प्रदर्शन: O(L²) टैक्स रिफंड

अब तक का कवरेज पर्याप्त लागत कटौती का दावा करता है—"आधी" लागतें उत्साहपूर्ण टुकड़ों में दिखाई देती हैं—लेकिन मुद्दा सटीक संख्या नहीं है, यह है कि स्केलिंग कर्व लंबे प्रॉम्प्ट और उच्च संगामिति के लिए व्यवहार्यता में वापस आ जाता है। यदि आपके वर्कलोड हैं:

100+ पृष्ठों पर RAG और दस्तावेज़ चैट,

मल्टी-फ़ाइल कोड नेविगेशन,

टूल-यूजिंग एजेंट जो लंबे स्क्रैचपैड रखते हैं,

...DSA प्रति-टोकन कंप्यूट और मेमोरी को कम करता है। आप संदर्भ को वहां धकेल सकते हैं जहां यह वास्तव में उपयोगी है, बजाय विंडो वाले हैक्स की परेड का मंचन करने के। शुरुआती vLLM समर्थन सुझाव देता है कि यह सिर्फ बेंच-ब्लिंग नहीं है—यह वहां चलता है जहां लोग मॉडल तैनात करते हैं।

चेतावनी (a.k.a. मंगलवार को किसी को भी विजय घोषित क्यों नहीं करनी चाहिए)

उम्मीदवार चयन मुफ्त नहीं है। यदि चयन रूटीन कैश लाइनों पर ट्रिप करता है या आपको CPU-GPU पिंग-पोंग में टक्कर देता है, तो आपकी स्पार्सिटी जीत वाष्पित हो जाती है।

k एक बजट है, जन्मसिद्ध अधिकार नहीं। बहुत छोटा और आप उन क्रॉस-रेफरेंस को छोड़ देते हैं जो मायने रखते हैं। बहुत बड़ा और आप वापस घने किनारे पर आ जाते हैं।

प्रशिक्षण बनाम इंफेरेंस मिसमैच। यदि आपके मॉडल को घना प्रशिक्षित किया गया है और आप इसे इंफेरेंस पर स्पार्स चलाते हैं, तो गुणवत्ता बहाव की अपेक्षा करें। DSA के सबसे मजबूत परिणाम तब दिखाई देते हैं जब स्पार्सिटी प्रशिक्षण आहार का हिस्सा होती है, न कि केवल सर्विंग-टाइम गार्निश।

लंबी पूंछ वाली अजीब बातें। स्पार्स पैटर्न कभी-कभी कहीं से भी 30K टोकन बाद में कॉल बैक पर फुस्स करते हैं। अच्छे हाइब्रिड आवधिक ग्लोबल्स या सीखी गई एंकर के साथ बचाव करते हैं।

यदि यह सब एक पुस्तक के लिए एक अच्छी अनुक्रमणिका बनाने जैसा लगता है, तो ऐसा इसलिए है क्योंकि यह है। बहुत छोटा और आप कुछ भी नहीं ढूंढ सकते; बहुत लंबा और यह फिर से सिर्फ किताब है।

DSA शायद क्या रखना चुनता है

विवरण कार्यान्वयन के अनुसार भिन्न होते हैं, लेकिन प्लेबुक इस तरह दिखती है:

स्थानीय विंडो: एक स्लाइडिंग विंडो के भीतर पड़ोसियों को रखें—अधिकांश भाषा संरचना स्थानीय है। 2) आवधिक/वैश्विक टोकन: नियमित "बीकन" डालें जो हमेशा वैश्विक रूप से कनेक्ट होते हैं। 3) सेलियंस स्कोरिंग: हल्के संकेतों का उपयोग करें—पूर्व परत सक्रियण, कैश किए गए महत्व, या टॉप-k समानता जैसे अनुमान—अतिरिक्त दूर के टोकन का चयन करने के लिए। 4) कॉम्पैक्ट अटेंशन: केवल रखे गए सेट के संघ पर अटेंशन चलाएं। 5) प्रति परत दोहराएं, जिससे विभिन्न हेड्स को विभिन्न संरचनाओं को पसंद करने की अनुमति मिलती है।

यह रूढ़िवादी नहीं है; यह सिर्फ सबसे कम आश्चर्यजनक चीज है जो काम कर सकती है। और जाहिर है कि यह आधुनिक इंफेरेंस स्टैक में परिचालन समर्थन लैंडिंग को देखते हुए ऐसा करता है।

DSA बनाम चंकिंग बनाम पुनर्प्राप्ति: अपना जहर चुनें

भोली चंकिंग: तेज़, लेकिन बेवकूफ—संदर्भ सीमाएँ चट्टानें बन जाती हैं। थ्रूपुट के लिए अच्छा, किसी भी सूक्ष्म चीज़ के लिए बुरा।

पुनर्प्राप्ति-संवर्धित पीढ़ी: होशियार, लेकिन भंगुर—पुनर्प्राप्तिकर्ता को यह याद रखने पर निर्भर करता है कि जनरेटर को बाद में क्या चाहिए।

DSA-शैली स्पार्स अटेंशन: पूरे थ्रेड को संदर्भ में रखता है, कंप्यूट को वहां केंद्रित किया जाता है जहां इसकी गिनती होती है। यह पुनर्प्राप्ति को प्रतिस्थापित नहीं करता है; यह पुनर्प्राप्ति को कम बैसाखी बनाता है।

ईमानदार समाधान एक मिश्रण है: प्रासंगिक दस्तावेज़ों को खींचने के लिए पुनर्प्राप्ति, बिना पिघले लंबे सीक्वेंस पर तर्क करने के लिए स्पार्स अटेंशन। आप अपने क्लाउड बिल से नफरत किए बिना दोनों कर सकते हैं।

गुणवत्ता: क्या यह अभी भी समझता है?

लाखों डॉलर का सवाल यह है कि क्या स्पार्स अटेंशन चुपचाप वाक्यों के बीच के अर्थ को छोड़ देता है। DeepSeek मॉडल के लिए शुरुआती रिपोर्ट बताती है कि लंबी संदर्भ में गुणवत्ता बनी रहती है या सुधार होती है क्योंकि मॉडल अर्थहीन जोड़ीदार स्कोर पर संभावना द्रव्यमान बर्बाद नहीं कर रहा है। चाल k और वैश्विक संरचना को ट्यून करना है ताकि मॉडल के पास प्रॉम्प्ट के माध्यम से एक विश्वसनीय रीढ़ हो। और फिर से, लूप में स्पार्सिटी के साथ प्रशिक्षण मायने रखता है—मॉडल अनुकूल होते हैं। यह मैनुअल ट्रांसमिशन के साथ ड्राइव करना सीखने जैसा है; एक बार जब आपको ताल मिल जाती है, तो आपको ऑटो याद नहीं आता है।

तैनाती वास्तविकता: कर्नेल, कैश, शेड्यूलर

vLLM समर्थन नोट को कॉल करने योग्य है: DSA केवल एक पेपर ट्रिक नहीं है; कर्नेल समर्थन और शेड्यूलिंग में वास्तविक काम चल रहा है ताकि यह स्कैटर-गैदर थियेटर के साथ GPU को स्टाल न करे। ब्लॉक-स्पार्स कर्नेल, फ़्यूज़्ड ऑप्स और सावधान KV-कैश लेआउट इस सामान को बनाते या तोड़ते हैं। स्पार्स अटेंशन में सबसे खराब परिणाम पूरी तरह से समझदार विचारों से आते हैं जो मेमोरी बैंडविड्थ और लॉन्च ओवरहेड से टकराते हैं। जब उन्हें संभाला जाता है, तो स्पार्सिटी गाती है।

DSA कहाँ चमकता है

संरचित दस्तावेज़ों पर लंबी संदर्भ Q&A। स्थानीय + बीकन मिश्रण बिना अटेंशन को बाढ़ के अनुभागों और क्रॉस-रेफरेंस को ट्रैक करता है।

कोडबेस तर्क। स्थानीय विंडो इंट्रा-फ़ाइल संदर्भ को कैप्चर करती हैं; आवधिक/वैश्विक लिंक फ़ाइलों, फ़ंक्शन कॉल और आयात के बीच सवारी करते हैं।

स्क्रैचपैड वाले एजेंट। स्पार्स अटेंशन एजेंट को पृष्ठ पाँच के बाद बकवास में गिरने के बिना लंबी वर्किंग मेमोरी रखने देता है।

DSA कहाँ नहीं (अभी तक)

छोटे प्रॉम्प्ट। घना अटेंशन ठीक है; स्पार्स ओवरहेड परिशोधित नहीं हो सकता है।

अत्यधिक उलझी हुई कविता या पहेली प्रॉम्प्ट जिनके लिए स्पष्ट संरचनात्मक संकेतों के बिना घास के ढेर में सुई की छलांग की आवश्यकता होती है। आप अभी भी k को ट्यून कर सकते हैं, लेकिन विधि पहेलियों की तुलना में पैटर्न को अधिक पसंद करती है।

Sider.AI के बारे में क्या?

इन तकनीकों में से किसी के लिए भी यहाँ परीक्षण है: क्या वे उपयोगकर्ताओं को अवैतनिक QA इंजीनियरों में बदले बिना टूल को बेहतर बनाते हैं? मेरे रन में, टूल जो स्पार्स अटेंशन को अच्छी तरह से एकीकृत करते हैं—विशेष रूप से दस्तावेज़ और कोड चैट के लिए—कम अस्थायी महसूस होते हैं। Sider.AI वास्तव में यहाँ खेलता है: जब आप 80-पृष्ठ चश्मा में चिपका रहे हैं या एक रेपो के माध्यम से ट्रडिंग कर रहे हैं, तो बिना स्टॉलिंग या पृष्ठ 47 के बारे में मतिभ्रम के एक लंबा, सुसंगत थ्रेड रखने की क्षमता मायने रखती है। विपणन "महीन स्पार्सिटी" के बारे में बड़ाई नहीं करता है, और यह ठीक है। उपयोगकर्ता परवाह करते हैं कि यह उत्तरदायी बना रहे, संदर्भ को सीधे रखे और वेगास में एक सप्ताहांत की तरह खर्च न हो। यदि आप बड़े, गंदे इनपुट के साथ काम कर रहे हैं, तो इस वर्ग का अटेंशन ट्रिक ठीक वही अंडर-द-हुड परिवर्तन है जो कम मस्से और तेज़ उत्तर के रूप में दिखाई देता है।

व्यावहारिक मार्गदर्शन: यदि आप यह तय कर रहे हैं कि DSA का उपयोग करना है या नहीं

आपका संदर्भ नियमित रूप से >32K टोकन है: हाँ, इसका मूल्यांकन करें।

आप अपने तैनाती स्टैक (vLLM, Triton कर्नेल, KV-कैश ट्यूनिंग) के स्वामी हैं: हाँ, विशेष रूप से।

आप घने-प्रशिक्षित भार के साथ फंस गए हैं और पुन: प्रशिक्षित नहीं कर सकते: सावधानीपूर्वक परीक्षण करें; आंशिक स्पार्सिटी या हेड-विशिष्ट स्पार्सिटी पर विचार करें।

विलंबता-संवेदनशील, उच्च-QPS वर्कलोड: यह वह जगह है जहाँ कर्व झुकना मायने रखता है। p95 और p99 को मापें।

और कृपया, GPU की सभी चीज़ों के प्यार के लिए, सिंथेटिक लोरेम इप्सम नहीं, वास्तविक प्रॉम्प्ट के साथ बेंचमार्क करें। स्पार्स विधियाँ प्रासंगिकता के यथार्थवादी वितरण पर जीवित या मर जाती हैं।

मेटा-पॉइंट: अच्छे स्वाद के रूप में स्पार्सिटी

इसका एक सौंदर्यशास्त्र है। मॉडल जो हर चीज़ पर समान रूप से ध्यान देते हैं, उन बैठकों की तरह होते हैं जहाँ हर कोई बात करता है। लोकतांत्रिक दिखता है, कुछ भी पूरा नहीं करता है। DSA की संवेदनशीलता संपादकीय है: दिलचस्प भागों पर ध्यान केंद्रित करें, एक रीढ़ बनाए रखें और एक बजट रखें। यदि आप मशीन लर्निंग से व्यापक एक सबक चाहते हैं, तो वह यहाँ है। अच्छी प्रणालियाँ सब कुछ नहीं करती हैं। वे सही काम जल्दी करते हैं।

अपरिहार्य भविष्य: स्पार्स ट्रेन करें, स्पार्स परोसें

हम स्पार्स पैटर्न के साथ एंड-टू-एंड प्रशिक्षित अधिक मॉडल देखेंगे। वहीं से गुणवत्ता और स्थिरता का अंतिम 10-15% आता है: मॉडल के इंडक्टिव बायस को सर्विंग पाथ के साथ संरेखित करने देना। यदि आप स्पार्स परोसते हैं लेकिन घना प्रशिक्षित करते हैं, तो आप मॉडल को फ्रीवे पर गियर बदलने के लिए कह रहे हैं। यह काम कर सकता है, लेकिन चौंकिए मत जब यह लड़खड़ाए।

इस बीच, फ्रेमवर्क स्पार्स पैटर्न को कंपोजेबल बना देंगे: स्थानीय विंडो + आवधिक ग्लोबल्स + सीखी गई एंकर + पुनर्प्राप्ति-जागरूक टोकन। अंतिम बिट—पुनर्प्राप्तिकर्ता सेलियंस और अटेंशन सेलियंस के बीच लूप को बंद करना—अगला स्पष्ट कदम जैसा लगता है। जब आप जो फेच करते हैं वह आपको बताता है कि आप किस पर ध्यान देते हैं, तो आप दो आधे-अंधे सिस्टम के बीच पिंग-पोंग करना बंद कर देते हैं।

तो DSA कैसे काम करता है? संक्षिप्त उत्तर

यह प्रत्येक टोकन के लिए संभावित रूप से प्रासंगिक टोकन का एक कॉम्पैक्ट सेट चुनता है—ज्यादातर स्थानीय, कुछ वैश्विक, कुछ स्मार्ट पिक्स।

यह केवल उस सेट पर अटेंशन चलाता है, कंप्यूट को द्विघात से लगभग संदर्भ लंबाई में रैखिक तक काटता है।

यह सावधान कर्नेल और कैश लेआउट पर निर्भर करता है ताकि सैद्धांतिक बचत वास्तविक विलंबता जीत के रूप में दिखाई दे।

यह संरचना और पर्याप्त वैश्विक कनेक्टिविटी को संरक्षित करके गुणवत्ता रखता है कि लंबी दूरी के संदर्भ खो नहीं जाते हैं।

बस इतना ही। कोई धूप नहीं, कोई मंत्र नहीं। बस किस पर ध्यान देना है, इसमें लागू अच्छा स्वाद।

ट्विस्ट एंडिंग (क्योंकि हमेशा एक होता है)

हर AI ट्रिक में अंततः निराशा का क्षण आता है। स्पार्स अटेंशन कुछ महत्वपूर्ण चीज़ को याद करेगा, शायद एक चतुर आलोचक द्वारा तैयार किए गए प्रॉम्प्ट में जो जोर देकर कहता है कि मॉडल को फंक्शन सिग्नेचर को जगल करते हुए भाषाओं में स्टांजा तीन को स्टांजा सैंतीस से जोड़ना चाहिए। ठीक है। लेकिन अधिकांश वास्तविक काम कविता-स्लैश-बेंचमार्क नहीं है—यह पाठ, कोड और तथ्यों के माध्यम से पीस रहा है। उसके लिए, DSA सिर्फ एक अच्छा विचार नहीं है। यह एक मॉडल के बीच का अंतर है जो आपके संदर्भ को पढ़ने का दिखावा करता है और जो वास्तव में कर सकता है।

और यदि आप क्लाउड बजट के माध्यम से छेद किए बिना ऐसा कर सकते हैं? वह कोई ट्रिक नहीं है। वह प्रगति है।

FAQ

Q1: DeepSeek Sparse Attention (DSA) सामान्य अंग्रेजी में कैसे काम करता है? DSA उन टोकन पर ध्यान केंद्रित करता है जो मायने रखते हैं—ज्यादातर आस-पास का पाठ, कुछ वैश्विक एंकर, साथ ही उच्च-सिग्नल पिक्स की एक छोटी सूची। O(L²) तुलनाओं के बजाय, यह O(Lk) चलाता है, संरचना को संरक्षित करके गुणवत्ता रखता है जबकि कंप्यूट को काटता है।

Q2: क्या DSA लंबी संदर्भ के लिए चंकिंग या पुनर्प्राप्ति से बेहतर है? DSA हर चीज़ को एक थ्रेड में रखता है जबकि कंप्यूट को वहां केंद्रित करता है जहाँ इसकी गिनती होती है; चंकिंग चट्टानें बनाता है और पुनर्प्राप्ति भूलक्कड़ हो सकती है। सबसे अच्छी सेटअप पुनर्प्राप्ति को लंबी संदर्भ में तर्क करने के लिए DSA के साथ लाने के लिए पुनर्प्राप्ति को मिलाते हैं।

Q3: क्या DSA घने ध्यान की तुलना में मॉडल की गुणवत्ता को नुकसान पहुंचाएगा? यदि आप स्पार्सिटी को ध्यान में रखते हुए प्रशिक्षित और सेवा करते हैं (और k को समझदारी से सेट करते हैं), तो गुणवत्ता बनी रहती है—अक्सर लंबी संदर्भों के लिए बेहतर होती है क्योंकि मॉडल कम-मूल्य वाले जोड़े में डूब नहीं रहा है। घने-प्रशिक्षित भार पर सर्व-स्पार्स ड्रिफ्ट हो सकता है, इसलिए वास्तविक प्रॉम्प्ट के साथ बेंचमार्क करें।

Q4: DSA से सबसे अधिक किस वर्कलोड को लाभ होता है? लंबी संदर्भ दस्तावेज़ Q&A, कोडबेस नेविगेशन और एजेंट स्क्रैचपैड। कहीं भी अनुक्रम लंबाई गुब्बारे और घने ध्यान विलंबता, मेमोरी दबाव और बढ़ती लागत में बदल जाते हैं।

Q5: क्या vLLM परिनियोजन के लिए DSA का समर्थन करता है? हाँ—हाल के पोस्ट DeepSeek के बेहतरीन स्पार्स अटेंशन के लिए vLLM एकीकृत समर्थन दिखाते हैं, जिसमें उत्पादन पाइपलाइनों में इसे व्यावहारिक बनाने के लिए कर्नेल और शेड्यूलर काम करते हैं।