“क्रांतिकारी” अटेंशन मैकेनिज्म के बारे में यह है कि हर कोई ऐसे सिर हिलाता है जैसे वे कोई जादूगर देख रहे हों, फिर चुपचाप उम्मीद करते हैं कि कोई भी उनसे चाल के बारे में बताने के लिए नहीं कहेगा। DeepSeek Sparse Attention (DSA) उन चालों में से एक है—चतुर, तेज़, और, यदि आप बारीकियों पर ध्यान दें, तो वास्तव में सौ पृष्ठों के गणित को बिना हाँफे समझ में आ जाता है। वादा: बुद्धिमत्ता बनाए रखें, कंप्यूट-टैक्स को छोड़ दें। वास्तविकता: यह निर्भर करता है, लेकिन इस बार ट्रेड-ऑफ ताज़ा रूप से समझदार दिखते हैं।
चलिए इसे स्पष्ट करते हैं: DSA बड़े भाषा मॉडल के लिए केवल उन चीज़ों पर ध्यान देने का एक तरीका है जो मायने रखती हैं। कुछ-कुछ नहीं। "शायद यह प्रासंगिक है" नहीं। यह एक बेहतरीन स्पार्स अटेंशन स्कीम है जो फुल सेल्फ-अटेंशन से मिलने वाले द्विघात विस्फोट को काटती है—बिना उस शाखा को काटे जिस पर मॉडल खड़ा है। यदि पुराने मॉडल का अटेंशन एक ऐसा कमरा था जहाँ हर शब्द को हर दूसरे शब्द के साथ आँखें मिलानी होती हैं, तो DSA इसे एक ऐसी पार्टी में बदल देता है जहाँ अंतर्मुखी लोग फलते-फूलते हैं: सीधे रास्ते, कम अर्थहीन छोटी-मोटी बातें, और बहुत कम शोर।
DeepSeek Sparse Attention वास्तव में क्या है?
DSA एक स्पार्स अटेंशन मैकेनिज्म है जो सेल्फ-अटेंशन की कम्प्यूटेशनल जटिलता को O(L²) से O(Lk) तक कम कर देता है, जहाँ L सीक्वेंस की लंबाई है और k प्रति टोकन "रखे" कनेक्शनों की संख्या है—चुने हुए, संभवतः प्रासंगिक पड़ोसी। एक पंक्ति में यही पिच है। कम गणित, अधिक समझ: हर टोकन को हर दूसरे टोकन से तुलना करने के बजाय, DSA एक सबसेट चुनता है—पड़ोसी, हेड्स, विंडोज, "एंकर," जो भी ह्यूरिस्टिक या सीखी गई नीति मॉडल के लिए सबसे अधिक समझ में आती है—ताकि आप फ़्लफ़ पर समय बर्बाद न करें।
अगर आपको लगता है कि यह परिचित लगता है, तो यह है: स्पार्स अटेंशन नया नहीं है। हमारे पास Longformer, BigBird, ब्लॉक-स्पार्स कर्नेल और एक दर्जन "स्थानीय + वैश्विक" हाइब्रिड हैं। सामान्य समस्या यह है कि स्पार्स पैटर्न या तो रिकॉल को लीक करते हैं (वे घास के ढेर में सुई को खो देते हैं), या उन्हें कुशलता से लागू करना इतना मुश्किल है कि आप जो भी सैद्धांतिक रूप से बचाते हैं वह कर्नेल ओवरहेड के रूप में फिर से प्रकट होता है। DSA का दावा दो गुना है: पहला, स्पार्सिटी पैटर्न गार्डन-वैरायटी ब्लॉक स्पार्सिटी की तुलना में अधिक बारीक और अनुकूली है; दूसरा, इसे एंड-टू-एंड तरीके से लागू किया गया है जो वास्तविक इंफेरेंस स्टैक—vLLM सहित—पर वास्तव में काम करता है।
अंतर्ज्ञान: लाइटनिंग इंडेक्सर, लॉन मोवर नहीं
मैंने जो सबसे उपयोगी सादृश्य देखा है: DSA एक लाइटनिंग इंडेक्सर की तरह काम करता है। यह पूरे मैदान को नहीं काटता; यह उस चीज़ पर झपटता है जो मायने रखती है—एक अच्छे संपादक की तरह जो तीन पैराग्राफ को काट देता है और उस वाक्य को रखता है जो गाता है। सिस्टम प्रति टोकन उच्च-सिग्नल कनेक्शनों का एक छोटा सेट रखता है—कुछ प्रासंगिकता स्कोरिंग द्वारा टॉप-k के बारे में सोचें—साथ ही संरचना की एक पतली रीढ़ (स्थानीय विंडो, आवधिक वैश्विक टोकन) ताकि लंबी दूरी की सामंजस्य मश में न बदल जाए।
इंजीनियरों को सादृश्य के बाद वाले हिस्से की परवाह है: परिचालन रूप से "प्रासंगिकता" का क्या अर्थ है? विभिन्न DSA राइट-अप ह्यूरिस्टिक्स पर संकेत देते हैं जो निकटता और पूर्व महत्व द्वारा उम्मीदवार कुंजियों का चयन करते हैं, जिसके बाद उन उम्मीदवारों के बीच कॉम्पैक्ट अटेंशन होता है। यह जादू नहीं है; यह ट्राइएज है। आप स्पष्ट पड़ोसियों को रखते हैं (स्थानीय संदर्भ लगभग हमेशा भाषा के लिए उपयोगी होता है), वैश्विक "लैंडमार्क" में छिड़काव करते हैं, और चुनिंदा रूप से अटेंशन को आशाजनक आउट-ऑफ़-विंडो टोकन पर रूट करते हैं। शुद्ध प्रभाव: आप रिकॉल को अपंग किए बिना खोज स्थान को आकार में लाते हैं। जब सही ढंग से किया जाता है, तो यह प्रूनिंग की तुलना में सभ्य शिष्टाचार जैसा लगता है।
गणित, न्यूनतम संस्करण
- फुल सेल्फ-अटेंशन: O(L²d), जहाँ d हेड डायमेंशन है।
- DSA: O(Lkd)। फिक्स्ड k के लिए, यह L में लीनियर-इश है। यह लंबे संदर्भों के लिए मायने रखता है। 128K टोकन पर, आपका GPU बिल आपको धन्यवाद देता है।
- मॉडल प्रति टोकन एक डायनेमिक उम्मीदवार सेट रखता है। आप उम्मीदवार चयन के साथ-साथ उनके बीच वास्तविक अटेंशन के लिए भुगतान करते हैं। यदि उम्मीदवार चयन वेक्टरयुक्त और कैश-अवेयर है, तो आप जीतते हैं; यदि नहीं, तो आप एक गुब्बारे को निचोड़ रहे हैं।
स्पार्स विधियों में यही तनाव है: एसिम्प्टोटिक्स को कम करें, लेकिन अपने डेटा मूवमेंट और कर्नेल लॉन्च ओवरहेड में इसे फिर से न डालें। DSA के आसपास के कार्यान्वयन कर्नेल-स्तरीय समर्थन और शेड्यूलर एकीकरण पर जोर देते हैं, और हाल के पोस्ट दिखाते हैं कि vLLM समर्थन ठीक यही लैंडिंग कर रहा है ताकि इसे तैनाती सेटिंग्स में वास्तविक बनाया जा सके।
DSA अब क्यों मायने रखता है?
क्योंकि लंबा संदर्भ नई स्क्रीन साइज़ वॉर है। हर कोई 200K टोकन और उससे अधिक चाहता है—स्क्रिप्ट, कोडबेस, PDF आपके विवेक के आकार के। उन लंबाई पर द्विघात अटेंशन विलंबता, थ्रूपुट और लागत के लिए एक नॉन-स्टार्टर है। आप इसे चतुर चंकिंग और पुनर्प्राप्ति के साथ नकली बना सकते हैं, लेकिन यह आपकी कार में एक बुकशेल्फ़ स्थापित करने जैसा है क्योंकि आपका ट्रंक भरता रहता है। DSA का तर्क सरल है: वास्तविक अटेंशन स्टेप को बेवकूफी से महंगा न बनाएं।
एक साइड बेनिफिट स्थिरता है। बहुत लंबे सीक्वेंस पर फुल अटेंशन संख्यात्मक रूप से स्पर्शपूर्ण और मेमोरी शोर हो सकता है। स्पार्स अटेंशन वर्किंग सेट को सिकोड़ता है और कमजोर जोड़ीदार स्कोर में डूबकर मॉडल के "भूलने" की संभावना को कम करता है। आप संरचना की एक रीढ़ और शीर्ष पर अनुकूलीपन का एक छोटा सा टुकड़ा रखते हैं। यह एक व्यावहारिक समझौता है जो एक पेपर डेमो के बजाय एक इंजीनियरिंग निर्णय की तरह लगता है।
स्पार्स चिड़ियाघर में DSA कहाँ फिट बैठता है
- फिक्स्ड पैटर्न (स्थानीय विंडो, डाइलेशन): तेज़, लेकिन भंगुर। लंबी दूरी के क्रॉस-रेफरेंस को याद करता है जब तक कि आपकी किस्मत का स्तर अधिकतम न हो।
- ग्लोबल टोकन: एंकर जोड़ता है। बेहतर, लेकिन हाथ-हिलाऊ। आप हर चीज़ पर "CLS" नहीं थप्पड़ मार सकते और इसे रिकॉल कह सकते हैं।
- सीखी गई नीतियों के माध्यम से रूटिंग: संभावित रूप से आदर्श, परिचालन रूप से गड़बड़। प्रशिक्षण जटिलताएं और भंगुर इंफेरेंस।
- DSA का बेहतरीन हाइब्रिड: प्रति टोकन एक कॉम्पैक्ट उम्मीदवार सेट क्यूरेट करें जो स्थानीयता, संरचित ग्लोबल्स और उच्च-सिग्नल पिक्स को मिलाता है। मुद्दा चतुर होना नहीं है—यह लगातार इतना अच्छा होना है कि आपकी विलंबता और गुणवत्ता दोनों स्केल करें।
प्रदर्शन: O(L²) टैक्स रिफंड
अब तक का कवरेज पर्याप्त लागत कटौती का दावा करता है—"आधी" लागतें उत्साहपूर्ण टुकड़ों में दिखाई देती हैं—लेकिन मुद्दा सटीक संख्या नहीं है, यह है कि स्केलिंग कर्व लंबे प्रॉम्प्ट और उच्च संगामिति के लिए व्यवहार्यता में वापस आ जाता है। यदि आपके वर्कलोड हैं:
- 100+ पृष्ठों पर RAG और दस्तावेज़ चैट,
- मल्टी-फ़ाइल कोड नेविगेशन,
- टूल-यूजिंग एजेंट जो लंबे स्क्रैचपैड रखते हैं,
...DSA प्रति-टोकन कंप्यूट और मेमोरी को कम करता है। आप संदर्भ को वहां धकेल सकते हैं जहां यह वास्तव में उपयोगी है, बजाय विंडो वाले हैक्स की परेड का मंचन करने के। शुरुआती vLLM समर्थन सुझाव देता है कि यह सिर्फ बेंच-ब्लिंग नहीं है—यह वहां चलता है जहां लोग मॉडल तैनात करते हैं।
चेतावनी (a.k.a. मंगलवार को किसी को भी विजय घोषित क्यों नहीं करनी चाहिए)
- उम्मीदवार चयन मुफ्त नहीं है। यदि चयन रूटीन कैश लाइनों पर ट्रिप करता है या आपको CPU-GPU पिंग-पोंग में टक्कर देता है, तो आपकी स्पार्सिटी जीत वाष्पित हो जाती है।
- k एक बजट है, जन्मसिद्ध अधिकार नहीं। बहुत छोटा और आप उन क्रॉस-रेफरेंस को छोड़ देते हैं जो मायने रखते हैं। बहुत बड़ा और आप वापस घने किनारे पर आ जाते हैं।
- प्रशिक्षण बनाम इंफेरेंस मिसमैच। यदि आपके मॉडल को घना प्रशिक्षित किया गया है और आप इसे इंफेरेंस पर स्पार्स चलाते हैं, तो गुणवत्ता बहाव की अपेक्षा करें। DSA के सबसे मजबूत परिणाम तब दिखाई देते हैं जब स्पार्सिटी प्रशिक्षण आहार का हिस्सा होती है, न कि केवल सर्विंग-टाइम गार्निश।
- लंबी पूंछ वाली अजीब बातें। स्पार्स पैटर्न कभी-कभी कहीं से भी 30K टोकन बाद में कॉल बैक पर फुस्स करते हैं। अच्छे हाइब्रिड आवधिक ग्लोबल्स या सीखी गई एंकर के साथ बचाव करते हैं।
यदि यह सब एक पुस्तक के लिए एक अच्छी अनुक्रमणिका बनाने जैसा लगता है, तो ऐसा इसलिए है क्योंकि यह है। बहुत छोटा और आप कुछ भी नहीं ढूंढ सकते; बहुत लंबा और यह फिर से सिर्फ किताब है।
DSA शायद क्या रखना चुनता है
विवरण कार्यान्वयन के अनुसार भिन्न होते हैं, लेकिन प्लेबुक इस तरह दिखती है:
- स्थानीय विंडो: एक स्लाइडिंग विंडो के भीतर पड़ोसियों को रखें—अधिकांश भाषा संरचना स्थानीय है। 2) आवधिक/वैश्विक टोकन: नियमित "बीकन" डालें जो हमेशा वैश्विक रूप से कनेक्ट होते हैं। 3) सेलियंस स्कोरिंग: हल्के संकेतों का उपयोग करें—पूर्व परत सक्रियण, कैश किए गए महत्व, या टॉप-k समानता जैसे अनुमान—अतिरिक्त दूर के टोकन का चयन करने के लिए। 4) कॉम्पैक्ट अटेंशन: केवल रखे गए सेट के संघ पर अटेंशन चलाएं। 5) प्रति परत दोहराएं, जिससे विभिन्न हेड्स को विभिन्न संरचनाओं को पसंद करने की अनुमति मिलती है।
यह रूढ़िवादी नहीं है; यह सिर्फ सबसे कम आश्चर्यजनक चीज है जो काम कर सकती है। और जाहिर है कि यह आधुनिक इंफेरेंस स्टैक में परिचालन समर्थन लैंडिंग को देखते हुए ऐसा करता है।
DSA बनाम चंकिंग बनाम पुनर्प्राप्ति: अपना जहर चुनें
- भोली चंकिंग: तेज़, लेकिन बेवकूफ—संदर्भ सीमाएँ चट्टानें बन जाती हैं। थ्रूपुट के लिए अच्छा, किसी भी सूक्ष्म चीज़ के लिए बुरा।
- पुनर्प्राप्ति-संवर्धित पीढ़ी: होशियार, लेकिन भंगुर—पुनर्प्राप्तिकर्ता को यह याद रखने पर निर्भर करता है कि जनरेटर को बाद में क्या चाहिए।
- DSA-शैली स्पार्स अटेंशन: पूरे थ्रेड को संदर्भ में रखता है, कंप्यूट को वहां केंद्रित किया जाता है जहां इसकी गिनती होती है। यह पुनर्प्राप्ति को प्रतिस्थापित नहीं करता है; यह पुनर्प्राप्ति को कम बैसाखी बनाता है।
ईमानदार समाधान एक मिश्रण है: प्रासंगिक दस्तावेज़ों को खींचने के लिए पुनर्प्राप्ति, बिना पिघले लंबे सीक्वेंस पर तर्क करने के लिए स्पार्स अटेंशन। आप अपने क्लाउड बिल से नफरत किए बिना दोनों कर सकते हैं।
गुणवत्ता: क्या यह अभी भी समझता है?
लाखों डॉलर का सवाल यह है कि क्या स्पार्स अटेंशन चुपचाप वाक्यों के बीच के अर्थ को छोड़ देता है। DeepSeek मॉडल के लिए शुरुआती रिपोर्ट बताती है कि लंबी संदर्भ में गुणवत्ता बनी रहती है या सुधार होती है क्योंकि मॉडल अर्थहीन जोड़ीदार स्कोर पर संभावना द्रव्यमान बर्बाद नहीं कर रहा है। चाल k और वैश्विक संरचना को ट्यून करना है ताकि मॉडल के पास प्रॉम्प्ट के माध्यम से एक विश्वसनीय रीढ़ हो। और फिर से, लूप में स्पार्सिटी के साथ प्रशिक्षण मायने रखता है—मॉडल अनुकूल होते हैं। यह मैनुअल ट्रांसमिशन के साथ ड्राइव करना सीखने जैसा है; एक बार जब आपको ताल मिल जाती है, तो आपको ऑटो याद नहीं आता है।
तैनाती वास्तविकता: कर्नेल, कैश, शेड्यूलर
vLLM समर्थन नोट को कॉल करने योग्य है: DSA केवल एक पेपर ट्रिक नहीं है; कर्नेल समर्थन और शेड्यूलिंग में वास्तविक काम चल रहा है ताकि यह स्कैटर-गैदर थियेटर के साथ GPU को स्टाल न करे। ब्लॉक-स्पार्स कर्नेल, फ़्यूज़्ड ऑप्स और सावधान KV-कैश लेआउट इस सामान को बनाते या तोड़ते हैं। स्पार्स अटेंशन में सबसे खराब परिणाम पूरी तरह से समझदार विचारों से आते हैं जो मेमोरी बैंडविड्थ और लॉन्च ओवरहेड से टकराते हैं। जब उन्हें संभाला जाता है, तो स्पार्सिटी गाती है।
DSA कहाँ चमकता है
- संरचित दस्तावेज़ों पर लंबी संदर्भ Q&A। स्थानीय + बीकन मिश्रण बिना अटेंशन को बाढ़ के अनुभागों और क्रॉस-रेफरेंस को ट्रैक करता है।
- कोडबेस तर्क। स्थानीय विंडो इंट्रा-फ़ाइल संदर्भ को कैप्चर करती हैं; आवधिक/वैश्विक लिंक फ़ाइलों, फ़ंक्शन कॉल और आयात के बीच सवारी करते हैं।
- स्क्रैचपैड वाले एजेंट। स्पार्स अटेंशन एजेंट को पृष्ठ पाँच के बाद बकवास में गिरने के बिना लंबी वर्किंग मेमोरी रखने देता है।
DSA कहाँ नहीं (अभी तक)
- छोटे प्रॉम्प्ट। घना अटेंशन ठीक है; स्पार्स ओवरहेड परिशोधित नहीं हो सकता है।
- अत्यधिक उलझी हुई कविता या पहेली प्रॉम्प्ट जिनके लिए स्पष्ट संरचनात्मक संकेतों के बिना घास के ढेर में सुई की छलांग की आवश्यकता होती है। आप अभी भी k को ट्यून कर सकते हैं, लेकिन विधि पहेलियों की तुलना में पैटर्न को अधिक पसंद करती है।
इन तकनीकों में से किसी के लिए भी यहाँ परीक्षण है: क्या वे उपयोगकर्ताओं को अवैतनिक QA इंजीनियरों में बदले बिना टूल को बेहतर बनाते हैं? मेरे रन में, टूल जो स्पार्स अटेंशन को अच्छी तरह से एकीकृत करते हैं—विशेष रूप से दस्तावेज़ और कोड चैट के लिए—कम अस्थायी महसूस होते हैं। Sider.AI वास्तव में यहाँ खेलता है: जब आप 80-पृष्ठ चश्मा में चिपका रहे हैं या एक रेपो के माध्यम से ट्रडिंग कर रहे हैं, तो बिना स्टॉलिंग या पृष्ठ 47 के बारे में मतिभ्रम के एक लंबा, सुसंगत थ्रेड रखने की क्षमता मायने रखती है। विपणन "महीन स्पार्सिटी" के बारे में बड़ाई नहीं करता है, और यह ठीक है। उपयोगकर्ता परवाह करते हैं कि यह उत्तरदायी बना रहे, संदर्भ को सीधे रखे और वेगास में एक सप्ताहांत की तरह खर्च न हो। यदि आप बड़े, गंदे इनपुट के साथ काम कर रहे हैं, तो इस वर्ग का अटेंशन ट्रिक ठीक वही अंडर-द-हुड परिवर्तन है जो कम मस्से और तेज़ उत्तर के रूप में दिखाई देता है। व्यावहारिक मार्गदर्शन: यदि आप यह तय कर रहे हैं कि DSA का उपयोग करना है या नहीं
- आपका संदर्भ नियमित रूप से >32K टोकन है: हाँ, इसका मूल्यांकन करें।
- आप अपने तैनाती स्टैक (vLLM, Triton कर्नेल, KV-कैश ट्यूनिंग) के स्वामी हैं: हाँ, विशेष रूप से।
- आप घने-प्रशिक्षित भार के साथ फंस गए हैं और पुन: प्रशिक्षित नहीं कर सकते: सावधानीपूर्वक परीक्षण करें; आंशिक स्पार्सिटी या हेड-विशिष्ट स्पार्सिटी पर विचार करें।
- विलंबता-संवेदनशील, उच्च-QPS वर्कलोड: यह वह जगह है जहाँ कर्व झुकना मायने रखता है। p95 और p99 को मापें।
और कृपया, GPU की सभी चीज़ों के प्यार के लिए, सिंथेटिक लोरेम इप्सम नहीं, वास्तविक प्रॉम्प्ट के साथ बेंचमार्क करें। स्पार्स विधियाँ प्रासंगिकता के यथार्थवादी वितरण पर जीवित या मर जाती हैं।
मेटा-पॉइंट: अच्छे स्वाद के रूप में स्पार्सिटी
इसका एक सौंदर्यशास्त्र है। मॉडल जो हर चीज़ पर समान रूप से ध्यान देते हैं, उन बैठकों की तरह होते हैं जहाँ हर कोई बात करता है। लोकतांत्रिक दिखता है, कुछ भी पूरा नहीं करता है। DSA की संवेदनशीलता संपादकीय है: दिलचस्प भागों पर ध्यान केंद्रित करें, एक रीढ़ बनाए रखें और एक बजट रखें। यदि आप मशीन लर्निंग से व्यापक एक सबक चाहते हैं, तो वह यहाँ है। अच्छी प्रणालियाँ सब कुछ नहीं करती हैं। वे सही काम जल्दी करते हैं।
अपरिहार्य भविष्य: स्पार्स ट्रेन करें, स्पार्स परोसें
हम स्पार्स पैटर्न के साथ एंड-टू-एंड प्रशिक्षित अधिक मॉडल देखेंगे। वहीं से गुणवत्ता और स्थिरता का अंतिम 10-15% आता है: मॉडल के इंडक्टिव बायस को सर्विंग पाथ के साथ संरेखित करने देना। यदि आप स्पार्स परोसते हैं लेकिन घना प्रशिक्षित करते हैं, तो आप मॉडल को फ्रीवे पर गियर बदलने के लिए कह रहे हैं। यह काम कर सकता है, लेकिन चौंकिए मत जब यह लड़खड़ाए।
इस बीच, फ्रेमवर्क स्पार्स पैटर्न को कंपोजेबल बना देंगे: स्थानीय विंडो + आवधिक ग्लोबल्स + सीखी गई एंकर + पुनर्प्राप्ति-जागरूक टोकन। अंतिम बिट—पुनर्प्राप्तिकर्ता सेलियंस और अटेंशन सेलियंस के बीच लूप को बंद करना—अगला स्पष्ट कदम जैसा लगता है। जब आप जो फेच करते हैं वह आपको बताता है कि आप किस पर ध्यान देते हैं, तो आप दो आधे-अंधे सिस्टम के बीच पिंग-पोंग करना बंद कर देते हैं।
तो DSA कैसे काम करता है? संक्षिप्त उत्तर
- यह प्रत्येक टोकन के लिए संभावित रूप से प्रासंगिक टोकन का एक कॉम्पैक्ट सेट चुनता है—ज्यादातर स्थानीय, कुछ वैश्विक, कुछ स्मार्ट पिक्स।
- यह केवल उस सेट पर अटेंशन चलाता है, कंप्यूट को द्विघात से लगभग संदर्भ लंबाई में रैखिक तक काटता है।
- यह सावधान कर्नेल और कैश लेआउट पर निर्भर करता है ताकि सैद्धांतिक बचत वास्तविक विलंबता जीत के रूप में दिखाई दे।
- यह संरचना और पर्याप्त वैश्विक कनेक्टिविटी को संरक्षित करके गुणवत्ता रखता है कि लंबी दूरी के संदर्भ खो नहीं जाते हैं।
बस इतना ही। कोई धूप नहीं, कोई मंत्र नहीं। बस किस पर ध्यान देना है, इसमें लागू अच्छा स्वाद।
ट्विस्ट एंडिंग (क्योंकि हमेशा एक होता है)
हर AI ट्रिक में अंततः निराशा का क्षण आता है। स्पार्स अटेंशन कुछ महत्वपूर्ण चीज़ को याद करेगा, शायद एक चतुर आलोचक द्वारा तैयार किए गए प्रॉम्प्ट में जो जोर देकर कहता है कि मॉडल को फंक्शन सिग्नेचर को जगल करते हुए भाषाओं में स्टांजा तीन को स्टांजा सैंतीस से जोड़ना चाहिए। ठीक है। लेकिन अधिकांश वास्तविक काम कविता-स्लैश-बेंचमार्क नहीं है—यह पाठ, कोड और तथ्यों के माध्यम से पीस रहा है। उसके लिए, DSA सिर्फ एक अच्छा विचार नहीं है। यह एक मॉडल के बीच का अंतर है जो आपके संदर्भ को पढ़ने का दिखावा करता है और जो वास्तव में कर सकता है।
और यदि आप क्लाउड बजट के माध्यम से छेद किए बिना ऐसा कर सकते हैं? वह कोई ट्रिक नहीं है। वह प्रगति है।
FAQ
Q1: DeepSeek Sparse Attention (DSA) सामान्य अंग्रेजी में कैसे काम करता है?
DSA उन टोकन पर ध्यान केंद्रित करता है जो मायने रखते हैं—ज्यादातर आस-पास का पाठ, कुछ वैश्विक एंकर, साथ ही उच्च-सिग्नल पिक्स की एक छोटी सूची। O(L²) तुलनाओं के बजाय, यह O(Lk) चलाता है, संरचना को संरक्षित करके गुणवत्ता रखता है जबकि कंप्यूट को काटता है।
Q2: क्या DSA लंबी संदर्भ के लिए चंकिंग या पुनर्प्राप्ति से बेहतर है?
DSA हर चीज़ को एक थ्रेड में रखता है जबकि कंप्यूट को वहां केंद्रित करता है जहाँ इसकी गिनती होती है; चंकिंग चट्टानें बनाता है और पुनर्प्राप्ति भूलक्कड़ हो सकती है। सबसे अच्छी सेटअप पुनर्प्राप्ति को लंबी संदर्भ में तर्क करने के लिए DSA के साथ लाने के लिए पुनर्प्राप्ति को मिलाते हैं।
Q3: क्या DSA घने ध्यान की तुलना में मॉडल की गुणवत्ता को नुकसान पहुंचाएगा?
यदि आप स्पार्सिटी को ध्यान में रखते हुए प्रशिक्षित और सेवा करते हैं (और k को समझदारी से सेट करते हैं), तो गुणवत्ता बनी रहती है—अक्सर लंबी संदर्भों के लिए बेहतर होती है क्योंकि मॉडल कम-मूल्य वाले जोड़े में डूब नहीं रहा है। घने-प्रशिक्षित भार पर सर्व-स्पार्स ड्रिफ्ट हो सकता है, इसलिए वास्तविक प्रॉम्प्ट के साथ बेंचमार्क करें।
Q4: DSA से सबसे अधिक किस वर्कलोड को लाभ होता है?
लंबी संदर्भ दस्तावेज़ Q&A, कोडबेस नेविगेशन और एजेंट स्क्रैचपैड। कहीं भी अनुक्रम लंबाई गुब्बारे और घने ध्यान विलंबता, मेमोरी दबाव और बढ़ती लागत में बदल जाते हैं।
Q5: क्या vLLM परिनियोजन के लिए DSA का समर्थन करता है?
हाँ—हाल के पोस्ट DeepSeek के बेहतरीन स्पार्स अटेंशन के लिए vLLM एकीकृत समर्थन दिखाते हैं, जिसमें उत्पादन पाइपलाइनों में इसे व्यावहारिक बनाने के लिए कर्नेल और शेड्यूलर काम करते हैं।