Sider.ai
  • चैट
  • वाइजबेस
  • औजार
  • विस्तार
  • ग्राहकों
  • मूल्य निर्धारण
अब डाउनलोड करो
लॉग इन करें

Sider के साथ तेजी से सीखें, गहराई से सोचें, और समझदारी से बढ़ें।

उत्पाद
ऐप्स
  • एक्सटेंशन
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
उपकरण
  • वेब निर्माताNew
  • एआई स्लाइड्सNew
  • एआई निबंध लेखक
  • Nano Banana Pro
  • Nano Banana Infographic
  • एआई इमेज जनरेटर
  • इटालियन ब्रेनरॉट जनरेटर
  • बैकग्राउंड रिमूवर
  • बैकग्राउंड चेंजर
  • फोटो इरेज़र
  • टेक्स्ट रिमूवर
  • इनपेंट
  • इमेज अपस्केलर
  • बनाएँ
  • एआई अनुवादक
  • इमेज अनुवादक
  • पीडीएफ अनुवादक
Sider
  • हमसे संपर्क करें
  • सहायता केंद्र
  • डाउनलोड
  • मूल्य निर्धारण
  • शिक्षा योजना
  • क्या नया है
  • ब्लॉग
  • समुदाय
  • साझेदार
  • सहयोगी
  • आमंत्रित करें
©2026 सर्वाधिकार सुरक्षित
उपयोग की शर्तें
गोपनीयता नीति
  • होम पेज
  • ब्लॉग
  • AI Tools
  • "विरल ध्यान जो विरल सोच नहीं है"

"विरल ध्यान जो विरल सोच नहीं है"

अद्यतन 30 सित. 2025 को

12 मिनट


“क्रांतिकारी” अटेंशन मैकेनिज्म के बारे में यह है कि हर कोई ऐसे सिर हिलाता है जैसे वे कोई जादूगर देख रहे हों, फिर चुपचाप उम्मीद करते हैं कि कोई भी उनसे चाल के बारे में बताने के लिए नहीं कहेगा। DeepSeek Sparse Attention (DSA) उन चालों में से एक है—चतुर, तेज़, और, यदि आप बारीकियों पर ध्यान दें, तो वास्तव में सौ पृष्ठों के गणित को बिना हाँफे समझ में आ जाता है। वादा: बुद्धिमत्ता बनाए रखें, कंप्यूट-टैक्स को छोड़ दें। वास्तविकता: यह निर्भर करता है, लेकिन इस बार ट्रेड-ऑफ ताज़ा रूप से समझदार दिखते हैं।
चलिए इसे स्पष्ट करते हैं: DSA बड़े भाषा मॉडल के लिए केवल उन चीज़ों पर ध्यान देने का एक तरीका है जो मायने रखती हैं। कुछ-कुछ नहीं। "शायद यह प्रासंगिक है" नहीं। यह एक बेहतरीन स्पार्स अटेंशन स्कीम है जो फुल सेल्फ-अटेंशन से मिलने वाले द्विघात विस्फोट को काटती है—बिना उस शाखा को काटे जिस पर मॉडल खड़ा है। यदि पुराने मॉडल का अटेंशन एक ऐसा कमरा था जहाँ हर शब्द को हर दूसरे शब्द के साथ आँखें मिलानी होती हैं, तो DSA इसे एक ऐसी पार्टी में बदल देता है जहाँ अंतर्मुखी लोग फलते-फूलते हैं: सीधे रास्ते, कम अर्थहीन छोटी-मोटी बातें, और बहुत कम शोर।
DeepSeek Sparse Attention वास्तव में क्या है?
DSA एक स्पार्स अटेंशन मैकेनिज्म है जो सेल्फ-अटेंशन की कम्प्यूटेशनल जटिलता को O(L²) से O(Lk) तक कम कर देता है, जहाँ L सीक्वेंस की लंबाई है और k प्रति टोकन "रखे" कनेक्शनों की संख्या है—चुने हुए, संभवतः प्रासंगिक पड़ोसी। एक पंक्ति में यही पिच है। कम गणित, अधिक समझ: हर टोकन को हर दूसरे टोकन से तुलना करने के बजाय, DSA एक सबसेट चुनता है—पड़ोसी, हेड्स, विंडोज, "एंकर," जो भी ह्यूरिस्टिक या सीखी गई नीति मॉडल के लिए सबसे अधिक समझ में आती है—ताकि आप फ़्लफ़ पर समय बर्बाद न करें।
अगर आपको लगता है कि यह परिचित लगता है, तो यह है: स्पार्स अटेंशन नया नहीं है। हमारे पास Longformer, BigBird, ब्लॉक-स्पार्स कर्नेल और एक दर्जन "स्थानीय + वैश्विक" हाइब्रिड हैं। सामान्य समस्या यह है कि स्पार्स पैटर्न या तो रिकॉल को लीक करते हैं (वे घास के ढेर में सुई को खो देते हैं), या उन्हें कुशलता से लागू करना इतना मुश्किल है कि आप जो भी सैद्धांतिक रूप से बचाते हैं वह कर्नेल ओवरहेड के रूप में फिर से प्रकट होता है। DSA का दावा दो गुना है: पहला, स्पार्सिटी पैटर्न गार्डन-वैरायटी ब्लॉक स्पार्सिटी की तुलना में अधिक बारीक और अनुकूली है; दूसरा, इसे एंड-टू-एंड तरीके से लागू किया गया है जो वास्तविक इंफेरेंस स्टैक—vLLM सहित—पर वास्तव में काम करता है।
अंतर्ज्ञान: लाइटनिंग इंडेक्सर, लॉन मोवर नहीं
मैंने जो सबसे उपयोगी सादृश्य देखा है: DSA एक लाइटनिंग इंडेक्सर की तरह काम करता है। यह पूरे मैदान को नहीं काटता; यह उस चीज़ पर झपटता है जो मायने रखती है—एक अच्छे संपादक की तरह जो तीन पैराग्राफ को काट देता है और उस वाक्य को रखता है जो गाता है। सिस्टम प्रति टोकन उच्च-सिग्नल कनेक्शनों का एक छोटा सेट रखता है—कुछ प्रासंगिकता स्कोरिंग द्वारा टॉप-k के बारे में सोचें—साथ ही संरचना की एक पतली रीढ़ (स्थानीय विंडो, आवधिक वैश्विक टोकन) ताकि लंबी दूरी की सामंजस्य मश में न बदल जाए।
इंजीनियरों को सादृश्य के बाद वाले हिस्से की परवाह है: परिचालन रूप से "प्रासंगिकता" का क्या अर्थ है? विभिन्न DSA राइट-अप ह्यूरिस्टिक्स पर संकेत देते हैं जो निकटता और पूर्व महत्व द्वारा उम्मीदवार कुंजियों का चयन करते हैं, जिसके बाद उन उम्मीदवारों के बीच कॉम्पैक्ट अटेंशन होता है। यह जादू नहीं है; यह ट्राइएज है। आप स्पष्ट पड़ोसियों को रखते हैं (स्थानीय संदर्भ लगभग हमेशा भाषा के लिए उपयोगी होता है), वैश्विक "लैंडमार्क" में छिड़काव करते हैं, और चुनिंदा रूप से अटेंशन को आशाजनक आउट-ऑफ़-विंडो टोकन पर रूट करते हैं। शुद्ध प्रभाव: आप रिकॉल को अपंग किए बिना खोज स्थान को आकार में लाते हैं। जब सही ढंग से किया जाता है, तो यह प्रूनिंग की तुलना में सभ्य शिष्टाचार जैसा लगता है।
गणित, न्यूनतम संस्करण
  • फुल सेल्फ-अटेंशन: O(L²d), जहाँ d हेड डायमेंशन है।
  • DSA: O(Lkd)। फिक्स्ड k के लिए, यह L में लीनियर-इश है। यह लंबे संदर्भों के लिए मायने रखता है। 128K टोकन पर, आपका GPU बिल आपको धन्यवाद देता है।
  • मॉडल प्रति टोकन एक डायनेमिक उम्मीदवार सेट रखता है। आप उम्मीदवार चयन के साथ-साथ उनके बीच वास्तविक अटेंशन के लिए भुगतान करते हैं। यदि उम्मीदवार चयन वेक्टरयुक्त और कैश-अवेयर है, तो आप जीतते हैं; यदि नहीं, तो आप एक गुब्बारे को निचोड़ रहे हैं।
स्पार्स विधियों में यही तनाव है: एसिम्प्टोटिक्स को कम करें, लेकिन अपने डेटा मूवमेंट और कर्नेल लॉन्च ओवरहेड में इसे फिर से न डालें। DSA के आसपास के कार्यान्वयन कर्नेल-स्तरीय समर्थन और शेड्यूलर एकीकरण पर जोर देते हैं, और हाल के पोस्ट दिखाते हैं कि vLLM समर्थन ठीक यही लैंडिंग कर रहा है ताकि इसे तैनाती सेटिंग्स में वास्तविक बनाया जा सके।
DSA अब क्यों मायने रखता है?
क्योंकि लंबा संदर्भ नई स्क्रीन साइज़ वॉर है। हर कोई 200K टोकन और उससे अधिक चाहता है—स्क्रिप्ट, कोडबेस, PDF आपके विवेक के आकार के। उन लंबाई पर द्विघात अटेंशन विलंबता, थ्रूपुट और लागत के लिए एक नॉन-स्टार्टर है। आप इसे चतुर चंकिंग और पुनर्प्राप्ति के साथ नकली बना सकते हैं, लेकिन यह आपकी कार में एक बुकशेल्फ़ स्थापित करने जैसा है क्योंकि आपका ट्रंक भरता रहता है। DSA का तर्क सरल है: वास्तविक अटेंशन स्टेप को बेवकूफी से महंगा न बनाएं।
एक साइड बेनिफिट स्थिरता है। बहुत लंबे सीक्वेंस पर फुल अटेंशन संख्यात्मक रूप से स्पर्शपूर्ण और मेमोरी शोर हो सकता है। स्पार्स अटेंशन वर्किंग सेट को सिकोड़ता है और कमजोर जोड़ीदार स्कोर में डूबकर मॉडल के "भूलने" की संभावना को कम करता है। आप संरचना की एक रीढ़ और शीर्ष पर अनुकूलीपन का एक छोटा सा टुकड़ा रखते हैं। यह एक व्यावहारिक समझौता है जो एक पेपर डेमो के बजाय एक इंजीनियरिंग निर्णय की तरह लगता है।
स्पार्स चिड़ियाघर में DSA कहाँ फिट बैठता है
  • फिक्स्ड पैटर्न (स्थानीय विंडो, डाइलेशन): तेज़, लेकिन भंगुर। लंबी दूरी के क्रॉस-रेफरेंस को याद करता है जब तक कि आपकी किस्मत का स्तर अधिकतम न हो।
  • ग्लोबल टोकन: एंकर जोड़ता है। बेहतर, लेकिन हाथ-हिलाऊ। आप हर चीज़ पर "CLS" नहीं थप्पड़ मार सकते और इसे रिकॉल कह सकते हैं।
  • सीखी गई नीतियों के माध्यम से रूटिंग: संभावित रूप से आदर्श, परिचालन रूप से गड़बड़। प्रशिक्षण जटिलताएं और भंगुर इंफेरेंस।
  • DSA का बेहतरीन हाइब्रिड: प्रति टोकन एक कॉम्पैक्ट उम्मीदवार सेट क्यूरेट करें जो स्थानीयता, संरचित ग्लोबल्स और उच्च-सिग्नल पिक्स को मिलाता है। मुद्दा चतुर होना नहीं है—यह लगातार इतना अच्छा होना है कि आपकी विलंबता और गुणवत्ता दोनों स्केल करें।
प्रदर्शन: O(L²) टैक्स रिफंड
अब तक का कवरेज पर्याप्त लागत कटौती का दावा करता है—"आधी" लागतें उत्साहपूर्ण टुकड़ों में दिखाई देती हैं—लेकिन मुद्दा सटीक संख्या नहीं है, यह है कि स्केलिंग कर्व लंबे प्रॉम्प्ट और उच्च संगामिति के लिए व्यवहार्यता में वापस आ जाता है। यदि आपके वर्कलोड हैं:
  • 100+ पृष्ठों पर RAG और दस्तावेज़ चैट,
  • मल्टी-फ़ाइल कोड नेविगेशन,
  • टूल-यूजिंग एजेंट जो लंबे स्क्रैचपैड रखते हैं,
...DSA प्रति-टोकन कंप्यूट और मेमोरी को कम करता है। आप संदर्भ को वहां धकेल सकते हैं जहां यह वास्तव में उपयोगी है, बजाय विंडो वाले हैक्स की परेड का मंचन करने के। शुरुआती vLLM समर्थन सुझाव देता है कि यह सिर्फ बेंच-ब्लिंग नहीं है—यह वहां चलता है जहां लोग मॉडल तैनात करते हैं।
चेतावनी (a.k.a. मंगलवार को किसी को भी विजय घोषित क्यों नहीं करनी चाहिए)
  • उम्मीदवार चयन मुफ्त नहीं है। यदि चयन रूटीन कैश लाइनों पर ट्रिप करता है या आपको CPU-GPU पिंग-पोंग में टक्कर देता है, तो आपकी स्पार्सिटी जीत वाष्पित हो जाती है।
  • k एक बजट है, जन्मसिद्ध अधिकार नहीं। बहुत छोटा और आप उन क्रॉस-रेफरेंस को छोड़ देते हैं जो मायने रखते हैं। बहुत बड़ा और आप वापस घने किनारे पर आ जाते हैं।
  • प्रशिक्षण बनाम इंफेरेंस मिसमैच। यदि आपके मॉडल को घना प्रशिक्षित किया गया है और आप इसे इंफेरेंस पर स्पार्स चलाते हैं, तो गुणवत्ता बहाव की अपेक्षा करें। DSA के सबसे मजबूत परिणाम तब दिखाई देते हैं जब स्पार्सिटी प्रशिक्षण आहार का हिस्सा होती है, न कि केवल सर्विंग-टाइम गार्निश।
  • लंबी पूंछ वाली अजीब बातें। स्पार्स पैटर्न कभी-कभी कहीं से भी 30K टोकन बाद में कॉल बैक पर फुस्स करते हैं। अच्छे हाइब्रिड आवधिक ग्लोबल्स या सीखी गई एंकर के साथ बचाव करते हैं।
यदि यह सब एक पुस्तक के लिए एक अच्छी अनुक्रमणिका बनाने जैसा लगता है, तो ऐसा इसलिए है क्योंकि यह है। बहुत छोटा और आप कुछ भी नहीं ढूंढ सकते; बहुत लंबा और यह फिर से सिर्फ किताब है।
DSA शायद क्या रखना चुनता है
विवरण कार्यान्वयन के अनुसार भिन्न होते हैं, लेकिन प्लेबुक इस तरह दिखती है:
  1. स्थानीय विंडो: एक स्लाइडिंग विंडो के भीतर पड़ोसियों को रखें—अधिकांश भाषा संरचना स्थानीय है। 2) आवधिक/वैश्विक टोकन: नियमित "बीकन" डालें जो हमेशा वैश्विक रूप से कनेक्ट होते हैं। 3) सेलियंस स्कोरिंग: हल्के संकेतों का उपयोग करें—पूर्व परत सक्रियण, कैश किए गए महत्व, या टॉप-k समानता जैसे अनुमान—अतिरिक्त दूर के टोकन का चयन करने के लिए। 4) कॉम्पैक्ट अटेंशन: केवल रखे गए सेट के संघ पर अटेंशन चलाएं। 5) प्रति परत दोहराएं, जिससे विभिन्न हेड्स को विभिन्न संरचनाओं को पसंद करने की अनुमति मिलती है।
यह रूढ़िवादी नहीं है; यह सिर्फ सबसे कम आश्चर्यजनक चीज है जो काम कर सकती है। और जाहिर है कि यह आधुनिक इंफेरेंस स्टैक में परिचालन समर्थन लैंडिंग को देखते हुए ऐसा करता है।
DSA बनाम चंकिंग बनाम पुनर्प्राप्ति: अपना जहर चुनें
  • भोली चंकिंग: तेज़, लेकिन बेवकूफ—संदर्भ सीमाएँ चट्टानें बन जाती हैं। थ्रूपुट के लिए अच्छा, किसी भी सूक्ष्म चीज़ के लिए बुरा।
  • पुनर्प्राप्ति-संवर्धित पीढ़ी: होशियार, लेकिन भंगुर—पुनर्प्राप्तिकर्ता को यह याद रखने पर निर्भर करता है कि जनरेटर को बाद में क्या चाहिए।
  • DSA-शैली स्पार्स अटेंशन: पूरे थ्रेड को संदर्भ में रखता है, कंप्यूट को वहां केंद्रित किया जाता है जहां इसकी गिनती होती है। यह पुनर्प्राप्ति को प्रतिस्थापित नहीं करता है; यह पुनर्प्राप्ति को कम बैसाखी बनाता है।
ईमानदार समाधान एक मिश्रण है: प्रासंगिक दस्तावेज़ों को खींचने के लिए पुनर्प्राप्ति, बिना पिघले लंबे सीक्वेंस पर तर्क करने के लिए स्पार्स अटेंशन। आप अपने क्लाउड बिल से नफरत किए बिना दोनों कर सकते हैं।
गुणवत्ता: क्या यह अभी भी समझता है?
लाखों डॉलर का सवाल यह है कि क्या स्पार्स अटेंशन चुपचाप वाक्यों के बीच के अर्थ को छोड़ देता है। DeepSeek मॉडल के लिए शुरुआती रिपोर्ट बताती है कि लंबी संदर्भ में गुणवत्ता बनी रहती है या सुधार होती है क्योंकि मॉडल अर्थहीन जोड़ीदार स्कोर पर संभावना द्रव्यमान बर्बाद नहीं कर रहा है। चाल k और वैश्विक संरचना को ट्यून करना है ताकि मॉडल के पास प्रॉम्प्ट के माध्यम से एक विश्वसनीय रीढ़ हो। और फिर से, लूप में स्पार्सिटी के साथ प्रशिक्षण मायने रखता है—मॉडल अनुकूल होते हैं। यह मैनुअल ट्रांसमिशन के साथ ड्राइव करना सीखने जैसा है; एक बार जब आपको ताल मिल जाती है, तो आपको ऑटो याद नहीं आता है।
तैनाती वास्तविकता: कर्नेल, कैश, शेड्यूलर
vLLM समर्थन नोट को कॉल करने योग्य है: DSA केवल एक पेपर ट्रिक नहीं है; कर्नेल समर्थन और शेड्यूलिंग में वास्तविक काम चल रहा है ताकि यह स्कैटर-गैदर थियेटर के साथ GPU को स्टाल न करे। ब्लॉक-स्पार्स कर्नेल, फ़्यूज़्ड ऑप्स और सावधान KV-कैश लेआउट इस सामान को बनाते या तोड़ते हैं। स्पार्स अटेंशन में सबसे खराब परिणाम पूरी तरह से समझदार विचारों से आते हैं जो मेमोरी बैंडविड्थ और लॉन्च ओवरहेड से टकराते हैं। जब उन्हें संभाला जाता है, तो स्पार्सिटी गाती है।
DSA कहाँ चमकता है
  • संरचित दस्तावेज़ों पर लंबी संदर्भ Q&A। स्थानीय + बीकन मिश्रण बिना अटेंशन को बाढ़ के अनुभागों और क्रॉस-रेफरेंस को ट्रैक करता है।
  • कोडबेस तर्क। स्थानीय विंडो इंट्रा-फ़ाइल संदर्भ को कैप्चर करती हैं; आवधिक/वैश्विक लिंक फ़ाइलों, फ़ंक्शन कॉल और आयात के बीच सवारी करते हैं।
  • स्क्रैचपैड वाले एजेंट। स्पार्स अटेंशन एजेंट को पृष्ठ पाँच के बाद बकवास में गिरने के बिना लंबी वर्किंग मेमोरी रखने देता है।
DSA कहाँ नहीं (अभी तक)
  • छोटे प्रॉम्प्ट। घना अटेंशन ठीक है; स्पार्स ओवरहेड परिशोधित नहीं हो सकता है।
  • अत्यधिक उलझी हुई कविता या पहेली प्रॉम्प्ट जिनके लिए स्पष्ट संरचनात्मक संकेतों के बिना घास के ढेर में सुई की छलांग की आवश्यकता होती है। आप अभी भी k को ट्यून कर सकते हैं, लेकिन विधि पहेलियों की तुलना में पैटर्न को अधिक पसंद करती है।
Sider.AI के बारे में क्या?
इन तकनीकों में से किसी के लिए भी यहाँ परीक्षण है: क्या वे उपयोगकर्ताओं को अवैतनिक QA इंजीनियरों में बदले बिना टूल को बेहतर बनाते हैं? मेरे रन में, टूल जो स्पार्स अटेंशन को अच्छी तरह से एकीकृत करते हैं—विशेष रूप से दस्तावेज़ और कोड चैट के लिए—कम अस्थायी महसूस होते हैं। Sider.AI वास्तव में यहाँ खेलता है: जब आप 80-पृष्ठ चश्मा में चिपका रहे हैं या एक रेपो के माध्यम से ट्रडिंग कर रहे हैं, तो बिना स्टॉलिंग या पृष्ठ 47 के बारे में मतिभ्रम के एक लंबा, सुसंगत थ्रेड रखने की क्षमता मायने रखती है। विपणन "महीन स्पार्सिटी" के बारे में बड़ाई नहीं करता है, और यह ठीक है। उपयोगकर्ता परवाह करते हैं कि यह उत्तरदायी बना रहे, संदर्भ को सीधे रखे और वेगास में एक सप्ताहांत की तरह खर्च न हो। यदि आप बड़े, गंदे इनपुट के साथ काम कर रहे हैं, तो इस वर्ग का अटेंशन ट्रिक ठीक वही अंडर-द-हुड परिवर्तन है जो कम मस्से और तेज़ उत्तर के रूप में दिखाई देता है।
व्यावहारिक मार्गदर्शन: यदि आप यह तय कर रहे हैं कि DSA का उपयोग करना है या नहीं
  • आपका संदर्भ नियमित रूप से >32K टोकन है: हाँ, इसका मूल्यांकन करें।
  • आप अपने तैनाती स्टैक (vLLM, Triton कर्नेल, KV-कैश ट्यूनिंग) के स्वामी हैं: हाँ, विशेष रूप से।
  • आप घने-प्रशिक्षित भार के साथ फंस गए हैं और पुन: प्रशिक्षित नहीं कर सकते: सावधानीपूर्वक परीक्षण करें; आंशिक स्पार्सिटी या हेड-विशिष्ट स्पार्सिटी पर विचार करें।
  • विलंबता-संवेदनशील, उच्च-QPS वर्कलोड: यह वह जगह है जहाँ कर्व झुकना मायने रखता है। p95 और p99 को मापें।
और कृपया, GPU की सभी चीज़ों के प्यार के लिए, सिंथेटिक लोरेम इप्सम नहीं, वास्तविक प्रॉम्प्ट के साथ बेंचमार्क करें। स्पार्स विधियाँ प्रासंगिकता के यथार्थवादी वितरण पर जीवित या मर जाती हैं।
मेटा-पॉइंट: अच्छे स्वाद के रूप में स्पार्सिटी
इसका एक सौंदर्यशास्त्र है। मॉडल जो हर चीज़ पर समान रूप से ध्यान देते हैं, उन बैठकों की तरह होते हैं जहाँ हर कोई बात करता है। लोकतांत्रिक दिखता है, कुछ भी पूरा नहीं करता है। DSA की संवेदनशीलता संपादकीय है: दिलचस्प भागों पर ध्यान केंद्रित करें, एक रीढ़ बनाए रखें और एक बजट रखें। यदि आप मशीन लर्निंग से व्यापक एक सबक चाहते हैं, तो वह यहाँ है। अच्छी प्रणालियाँ सब कुछ नहीं करती हैं। वे सही काम जल्दी करते हैं।
अपरिहार्य भविष्य: स्पार्स ट्रेन करें, स्पार्स परोसें
हम स्पार्स पैटर्न के साथ एंड-टू-एंड प्रशिक्षित अधिक मॉडल देखेंगे। वहीं से गुणवत्ता और स्थिरता का अंतिम 10-15% आता है: मॉडल के इंडक्टिव बायस को सर्विंग पाथ के साथ संरेखित करने देना। यदि आप स्पार्स परोसते हैं लेकिन घना प्रशिक्षित करते हैं, तो आप मॉडल को फ्रीवे पर गियर बदलने के लिए कह रहे हैं। यह काम कर सकता है, लेकिन चौंकिए मत जब यह लड़खड़ाए।
इस बीच, फ्रेमवर्क स्पार्स पैटर्न को कंपोजेबल बना देंगे: स्थानीय विंडो + आवधिक ग्लोबल्स + सीखी गई एंकर + पुनर्प्राप्ति-जागरूक टोकन। अंतिम बिट—पुनर्प्राप्तिकर्ता सेलियंस और अटेंशन सेलियंस के बीच लूप को बंद करना—अगला स्पष्ट कदम जैसा लगता है। जब आप जो फेच करते हैं वह आपको बताता है कि आप किस पर ध्यान देते हैं, तो आप दो आधे-अंधे सिस्टम के बीच पिंग-पोंग करना बंद कर देते हैं।
तो DSA कैसे काम करता है? संक्षिप्त उत्तर
  • यह प्रत्येक टोकन के लिए संभावित रूप से प्रासंगिक टोकन का एक कॉम्पैक्ट सेट चुनता है—ज्यादातर स्थानीय, कुछ वैश्विक, कुछ स्मार्ट पिक्स।
  • यह केवल उस सेट पर अटेंशन चलाता है, कंप्यूट को द्विघात से लगभग संदर्भ लंबाई में रैखिक तक काटता है।
  • यह सावधान कर्नेल और कैश लेआउट पर निर्भर करता है ताकि सैद्धांतिक बचत वास्तविक विलंबता जीत के रूप में दिखाई दे।
  • यह संरचना और पर्याप्त वैश्विक कनेक्टिविटी को संरक्षित करके गुणवत्ता रखता है कि लंबी दूरी के संदर्भ खो नहीं जाते हैं।
बस इतना ही। कोई धूप नहीं, कोई मंत्र नहीं। बस किस पर ध्यान देना है, इसमें लागू अच्छा स्वाद।
ट्विस्ट एंडिंग (क्योंकि हमेशा एक होता है)
हर AI ट्रिक में अंततः निराशा का क्षण आता है। स्पार्स अटेंशन कुछ महत्वपूर्ण चीज़ को याद करेगा, शायद एक चतुर आलोचक द्वारा तैयार किए गए प्रॉम्प्ट में जो जोर देकर कहता है कि मॉडल को फंक्शन सिग्नेचर को जगल करते हुए भाषाओं में स्टांजा तीन को स्टांजा सैंतीस से जोड़ना चाहिए। ठीक है। लेकिन अधिकांश वास्तविक काम कविता-स्लैश-बेंचमार्क नहीं है—यह पाठ, कोड और तथ्यों के माध्यम से पीस रहा है। उसके लिए, DSA सिर्फ एक अच्छा विचार नहीं है। यह एक मॉडल के बीच का अंतर है जो आपके संदर्भ को पढ़ने का दिखावा करता है और जो वास्तव में कर सकता है।
और यदि आप क्लाउड बजट के माध्यम से छेद किए बिना ऐसा कर सकते हैं? वह कोई ट्रिक नहीं है। वह प्रगति है।

FAQ

Q1: DeepSeek Sparse Attention (DSA) सामान्य अंग्रेजी में कैसे काम करता है? DSA उन टोकन पर ध्यान केंद्रित करता है जो मायने रखते हैं—ज्यादातर आस-पास का पाठ, कुछ वैश्विक एंकर, साथ ही उच्च-सिग्नल पिक्स की एक छोटी सूची। O(L²) तुलनाओं के बजाय, यह O(Lk) चलाता है, संरचना को संरक्षित करके गुणवत्ता रखता है जबकि कंप्यूट को काटता है।
Q2: क्या DSA लंबी संदर्भ के लिए चंकिंग या पुनर्प्राप्ति से बेहतर है? DSA हर चीज़ को एक थ्रेड में रखता है जबकि कंप्यूट को वहां केंद्रित करता है जहाँ इसकी गिनती होती है; चंकिंग चट्टानें बनाता है और पुनर्प्राप्ति भूलक्कड़ हो सकती है। सबसे अच्छी सेटअप पुनर्प्राप्ति को लंबी संदर्भ में तर्क करने के लिए DSA के साथ लाने के लिए पुनर्प्राप्ति को मिलाते हैं।
Q3: क्या DSA घने ध्यान की तुलना में मॉडल की गुणवत्ता को नुकसान पहुंचाएगा? यदि आप स्पार्सिटी को ध्यान में रखते हुए प्रशिक्षित और सेवा करते हैं (और k को समझदारी से सेट करते हैं), तो गुणवत्ता बनी रहती है—अक्सर लंबी संदर्भों के लिए बेहतर होती है क्योंकि मॉडल कम-मूल्य वाले जोड़े में डूब नहीं रहा है। घने-प्रशिक्षित भार पर सर्व-स्पार्स ड्रिफ्ट हो सकता है, इसलिए वास्तविक प्रॉम्प्ट के साथ बेंचमार्क करें।
Q4: DSA से सबसे अधिक किस वर्कलोड को लाभ होता है? लंबी संदर्भ दस्तावेज़ Q&A, कोडबेस नेविगेशन और एजेंट स्क्रैचपैड। कहीं भी अनुक्रम लंबाई गुब्बारे और घने ध्यान विलंबता, मेमोरी दबाव और बढ़ती लागत में बदल जाते हैं।
Q5: क्या vLLM परिनियोजन के लिए DSA का समर्थन करता है? हाँ—हाल के पोस्ट DeepSeek के बेहतरीन स्पार्स अटेंशन के लिए vLLM एकीकृत समर्थन दिखाते हैं, जिसमें उत्पादन पाइपलाइनों में इसे व्यावहारिक बनाने के लिए कर्नेल और शेड्यूलर काम करते हैं।

हाल की लेख
कैसे करें ChatPDF में महारत: घने दस्तावेज़ों से तेजी से जानकारी प्राप्त करें

कैसे करें ChatPDF में महारत: घने दस्तावेज़ों से तेजी से जानकारी प्राप्त करें

तेज़ और सटीक दस्तावेज़ों के लिए सर्वश्रेष्ठ X Auto-Translation विकल्प

तेज़ और सटीक दस्तावेज़ों के लिए सर्वश्रेष्ठ X Auto-Translation विकल्प

ईरान में Samsung AI अनुवाद उपलब्ध नहीं? व्यावहारिक समाधान

ईरान में Samsung AI अनुवाद उपलब्ध नहीं? व्यावहारिक समाधान

फ़ारसी अनुवाद उपकरण: तेज़ और सटीक काम के लिए एक व्यावहारिक मार्गदर्शिका

फ़ारसी अनुवाद उपकरण: तेज़ और सटीक काम के लिए एक व्यावहारिक मार्गदर्शिका

गहराई से संदर्भित अनुसंधान के लिए सर्वश्रेष्ठ Grok विकल्प

गहराई से संदर्भित अनुसंधान के लिए सर्वश्रेष्ठ Grok विकल्प

AI इमेज जेनरेटर की 15 बेहतरीन विशेषताएं जिनका आप वास्तव में उपयोग करेंगे

AI इमेज जेनरेटर की 15 बेहतरीन विशेषताएं जिनका आप वास्तव में उपयोग करेंगे