How does DeepSeek Sparse Attention (DSA) work in plain English?

DSA narrows attention to the tokens that matter—mostly nearby text, a few global anchors, plus a short list of high-signal picks. Instead of O(L²) comparisons, it runs O(Lk), keeping quality by preserving structure while cutting compute.

Is DSA better than chunking or retrieval for long context?

DSA keeps everything in one thread while focusing compute where it counts; chunking creates cliffs and retrieval can be forgetful. The best setups mix retrieval for fetching with DSA for reasoning across long context without the quadratic tax.

Will DSA hurt model quality compared to dense attention?

If you train and serve with sparsity in mind (and set k sanely), quality holds up—often better for long contexts because the model isn’t drowning in low-value pairs. Serve-sparse on dense-trained weights can drift, so benchmark with real prompts.

What workloads benefit most from DSA?

Long-context document Q&A, codebase navigation, and agent scratchpads. Anywhere sequence length balloons and dense attention turns into latency, memory pressure, and rising costs.

Does vLLM support DSA for deployment?

Yes—recent posts show vLLM integrating support for DeepSeek’s fine-grained sparse attention, with kernel and scheduler work to make it practical in production pipelines.

વિરલ ધ્યાન જે વિરલ વિચાર નથી

“ક્રાંતિકારી” એટેન્શન મિકેનિઝમ વિશે એવી વાત છે કે દરેક જણ જાદુગરને જોઈ રહ્યા હોય તેમ માથું હલાવે છે, પછી શાંતિથી આશા રાખે છે કે કોઈ તેમને યુક્તિ સમજાવવા માટે કહેશે નહીં. DeepSeek Sparse Attention (DSA) એ તે યુક્તિઓમાંથી એક છે—હોશિયાર, ઝડપી અને, જો તમે વિગતો પર ધ્યાન આપો તો, ગણિતના સો પાનાં વાંચ્યા વિના ખરેખર સમજી શકાય તેવું છે. વચન: બુદ્ધિ જાળવી રાખો, ગણતરીનો બોજ ઓછો કરો. વાસ્તવિકતા: તે આધાર રાખે છે, પરંતુ આ વખતે ટ્રેડ-ઓફ્સ તાજગીભર્યા લાગે છે.

ચાલો તેને સરળ બનાવીએ: DSA એ મોટા ભાષા મોડેલ્સ માટે ફક્ત મહત્વની બાબતો પર જ ધ્યાન આપવાનો એક માર્ગ છે. થોડું-ઘણું નહીં. “કદાચ તે સુસંગત છે” એવું પણ નહીં. તે એક ફાઇન-ગ્રેઇન્ડ સ્પાર્સ એટેન્શન સ્કીમ છે જે સંપૂર્ણ સેલ્ફ-એટેન્શનથી મળતા ક્વાડ્રેટિક વિસ્ફોટને ઘટાડે છે—મોડેલ જે શાખા પર ઊભું છે તેને કાપ્યા વિના. જો જૂના મોડેલનું એટેન્શન એક એવો ઓરડો હતો જ્યાં દરેક શબ્દે દરેક અન્ય શબ્દ સાથે આંખ મિલાવવી પડતી હતી, તો DSA તેને એક પાર્ટીમાં ફેરવે છે જ્યાં અંતર્મુખો ખીલે છે: સીધા માર્ગો, ઓછી નકામી નાની-નાની વાતો અને ઘોંઘાટ પણ ઓછો.

ડીપસીક સ્પાર્સ એટેન્શન ખરેખર શું છે?

DSA એ એક સ્પાર્સ એટેન્શન મિકેનિઝમ છે જે સેલ્ફ-એટેન્શનની ગણતરીની જટિલતાને O(L²) થી ઘટાડીને O(Lk) કરે છે, જ્યાં L એ સિક્વન્સની લંબાઈ છે અને k એ ટોકન દીઠ “રાખવામાં” આવેલા કનેક્શન્સની સંખ્યા છે—પસંદ કરેલ, સંભવિત રૂપે સંબંધિત પાડોશીઓ. એક લીટીમાં આ પિચ છે. ઓછું ગણિત, વધુ સમજણ: દરેક ટોકનને દરેક અન્ય ટોકન સાથે સરખાવવાને બદલે, DSA એક સબસેટ પસંદ કરે છે—પાડોશીઓ, હેડ્સ, વિન્ડોઝ, “એન્કર,” મોડેલ માટે જે પણ હ્યુરિસ્ટિક અથવા શીખેલી નીતિ સૌથી વધુ અર્થપૂર્ણ હોય—તેથી તમે નકામી બાબતો પર સમય બગાડો નહીં.

જો તમને લાગે કે આ પરિચિત લાગે છે, તો તે છે જ: સ્પાર્સ એટેન્શન નવું નથી. અમારી પાસે Longformer, BigBird, બ્લોક-સ્પાર્સ કર્નલો અને ડઝનબંધ “સ્થાનિક + વૈશ્વિક” હાઇબ્રિડ્સ છે. સામાન્ય સમસ્યા એ છે કે સ્પાર્સ પેટર્ન ક્યાં તો રિકોલ લીક કરે છે (તેઓ ઘાસની ગંજીમાં સોય ચૂકી જાય છે), અથવા તેને કાર્યક્ષમ રીતે લાગુ કરવું એટલું મુશ્કેલ છે કે તમે સૈદ્ધાંતિક રીતે જે બચાવો છો તે કર્નલ ઓવરહેડ તરીકે ફરીથી દેખાય છે. DSA નો દાવો બે ગણો છે: પ્રથમ, સ્પાર્સિટી પેટર્ન સામાન્ય બ્લોક સ્પાર્સિટી કરતાં વધુ ફાઇન-ગ્રેઇન્ડ અને અનુકૂલનશીલ છે; બીજું, તે એન્ડ-ટુ-એન્ડ રીતે લાગુ કરવામાં આવ્યું છે જે વાસ્તવિક ઇન્ફરન્સ સ્ટેક્સ પર ખરેખર કામ કરે છે—vLLM સહિત.

અનુભવ: લાઈટનિંગ ઇન્ડેક્સર, નોટ લોન મોવર

મેં જોયેલી સૌથી મદદરૂપ સામ્યતા: DSA લાઈટનિંગ ઇન્ડેક્સરની જેમ કાર્ય કરે છે. તે આખા ખેતરને કાપતું નથી; તે જે મહત્વનું છે તેના પર ત્રાટકે છે—એક સારા સંપાદકની જેમ જે ત્રણ ફકરા કાપી નાખે છે અને જે વાક્ય ગાય છે તેને રાખે છે. સિસ્ટમ ટોકન દીઠ ઉચ્ચ-સિગ્નલ કનેક્શન્સનો એક નાનો સમૂહ જાળવી રાખે છે—કેટલાક સુસંગતતા સ્કોરિંગ દ્વારા ટોપ-કે વિચારો—વત્તા માળખાનો એક પાતળો આધાર (સ્થાનિક વિન્ડોઝ, સામયિક વૈશ્વિક ટોકન્સ) જેથી લાંબા ગાળાની સુસંગતતા નબળી ન પડે.

એન્જિનિયરોને સામ્યતા પછીના ભાગની કાળજી હોય છે: સંચાલનમાં “સુસંગતતા” નો અર્થ શું થાય છે? વિવિધ DSA લેખનો સંકેત આપે છે કે જે હ્યુરિસ્ટિક્સ નિકટતા અને અગાઉના મહત્વ દ્વારા ઉમેદવાર કીઓ પસંદ કરે છે, ત્યારબાદ તે ઉમેદવારો વચ્ચે સંક્ષિપ્ત ધ્યાન આપે છે. તે જાદુ નથી; તે ટriage છે. તમે સ્પષ્ટ પાડોશીઓને રાખો છો (ભાષા માટે સ્થાનિક સંદર્ભ લગભગ હંમેશા ઉપયોગી હોય છે), વૈશ્વિક “લેન્ડમાર્ક્સ” છાંટો છો અને પસંદગીયુક્ત રીતે વિન્ડોની બહારના આશાસ્પદ ટોકન્સ પર ધ્યાન દોરો છો. ચોખ્ખી અસર: તમે રિકોલને નબળી પાડ્યા વિના શોધ જગ્યાને નીચે લાવો છો. જ્યારે યોગ્ય રીતે કરવામાં આવે છે, ત્યારે આ કાપણી જેવું ઓછું અને યોગ્ય રીતભાત જેવું વધુ લાગે છે.

ગણિત, મિનિમલિસ્ટ આવૃત્તિ

સંપૂર્ણ સેલ્ફ-એટેન્શન: O(L²d), જ્યાં d એ હેડ પરિમાણ છે.

DSA: O(Lkd). નિશ્ચિત k માટે, તે L માં રેખીય જેવું છે. આ લાંબા સંદર્ભો માટે મહત્વપૂર્ણ છે. 128K ટોકન્સ પર, તમારું GPU બિલ તમારો આભાર માને છે.

મોડેલ ટોકન દીઠ એક ગતિશીલ ઉમેદવાર સમૂહ જાળવે છે. તમે ઉમેદવારની પસંદગી વત્તા તેમની વચ્ચેના વાસ્તવિક ધ્યાન માટે ચૂકવણી કરો છો. જો ઉમેદવારની પસંદગી વેક્ટરાઇઝ્ડ અને કેશ-અવેર હોય, તો તમે જીતી જાઓ છો; જો નહીં, તો તમે ફુગ્ગાને સ્ક્વિઝ કરી રહ્યા છો.

આ બધી સ્પાર્સ પદ્ધતિઓમાં તણાવ છે: એસિમ્પટોટિક્સ ઘટાડો, પરંતુ તમારા ડેટાની મૂવમેન્ટ અને કર્નલ લોન્ચ ઓવરહેડમાં ફરીથી રજૂ કરશો નહીં. DSA ની આસપાસના અમલીકરણો કર્નલ-સ્તરના સપોર્ટ અને શેડ્યૂલર એકીકરણ પર ભાર મૂકે છે, અને તાજેતરની પોસ્ટ્સ vLLM સપોર્ટને ચોક્કસપણે આને જમાવટ સેટિંગ્સમાં વાસ્તવિક બનાવવા માટે દર્શાવે છે.

DSA હવે શા માટે મહત્વપૂર્ણ છે?

કારણ કે લાંબો સંદર્ભ એ નવી સ્ક્રીન સાઇઝ વોર છે. દરેક જણ 200K ટોકન્સ અને તેથી વધુ ઇચ્છે છે—સ્ક્રિપ્ટ્સ, કોડબેઝ, તમારી અંતરાત્માના કદના PDF. તે લંબાઈ પર ક્વાડ્રેટિક ધ્યાન લેટન્સી, થ્રુપુટ અને ખર્ચ માટે નોન-સ્ટાર્ટર છે. તમે હોશિયાર ચંકિંગ અને રિટ્રીવલથી તેને નકલી બનાવી શકો છો, પરંતુ તે તમારી કારમાં બુકશેલ્ફ સ્થાપિત કરવા જેવું છે કારણ કે તમારી ટ્રંક ભરવાનું ચાલુ રાખે છે. DSA ની દલીલ સરળ છે: વાસ્તવિક ધ્યાન પગલું મૂર્ખામીભર્યું ખર્ચાળ ન બનાવો.

એક બાજુનો ફાયદો સ્થિરતા છે. ખૂબ લાંબી સિક્વન્સ પર સંપૂર્ણ ધ્યાન આંકડાકીય રીતે સ્પર્શી અને મેમરી ઘોંઘાટીયા બની શકે છે. સ્પાર્સ એટેન્શન વર્કિંગ સેટને સંકોચો છે અને નબળા જોડીવાળા સ્કોર્સમાં ડૂબી જવાથી મોડેલ “ભૂલી” જવાની સંભાવનાને ઘટાડે છે. તમે માળખાનો એક આધાર અને ટોચ પર અનુકૂલનક્ષમતાનો એક નાનો ટુકડો રાખો છો. તે એક વ્યવહારુ સમાધાન છે જે એકવાર માટે, પેપર ડેમોને બદલે એન્જિનિયરિંગ નિર્ણય જેવું લાગે છે.

સ્પાર્સ ઝૂમાં DSA ક્યાં બંધબેસે છે

નિશ્ચિત પેટર્ન (સ્થાનિક વિન્ડોઝ, ડિલેશન્સ): ઝડપી, પરંતુ બરડ. જ્યાં સુધી તમારી નસીબની સ્થિતિ મહત્તમ ન હોય ત્યાં સુધી લાંબા ગાળાના ક્રોસ-રેફરન્સ ચૂકી જાય છે.

વૈશ્વિક ટોકન્સ: એન્કર ઉમેરે છે. વધુ સારું, પરંતુ હાથ-વેવી. તમે દરેક વસ્તુ પર “CLS” લગાવી શકતા નથી અને તેને રિકોલ કહી શકતા નથી.

શીખેલી નીતિઓ દ્વારા રૂટીંગ: સંભવિત રૂપે આદર્શ, સંચાલનમાં અવ્યવસ્થિત. તાલીમ જટિલતાઓ અને બરડ અનુમાન.

DSA નું ફાઇન-ગ્રેઇન્ડ હાઇબ્રિડ: ટોકન દીઠ એક સંક્ષિપ્ત ઉમેદવાર સમૂહ ક્યુરેટ કરો જે સ્થાનિકતા, સંરચિત ગ્લોબલ્સ અને ઉચ્ચ-સિગ્નલ પિક્સને મિશ્રિત કરે છે. મુદ્દો હોશિયાર બનવાનો નથી—તે સતત પૂરતો સારો બનવાનો છે કે તમારી લેટન્સી અને ગુણવત્તા બંને સ્કેલ થાય.

કામગીરી: O(L²) ટેક્સ રિફંડ

અત્યાર સુધીનું કવરેજ નોંધપાત્ર ખર્ચ ઘટાડાનો દાવો કરે છે—“અડધો કરવો” ખર્ચ શ્વાસ વિનાના ટુકડાઓમાં દેખાય છે—પરંતુ મુદ્દો ચોક્કસ સંખ્યા નથી, તે એ છે કે સ્કેલિંગ વળાંક લાંબા પ્રોમ્પ્ટ્સ અને ઉચ્ચ એક સાથે ચાલતા માટે સધ્ધરતામાં પાછો વળે છે. જો તમારા વર્કલોડ્સ છે:

100+ પૃષ્ઠો પર RAG અને દસ્તાવેજ ચેટ,

મલ્ટિ-ફાઇલ કોડ નેવિગેશન,

લાંબા સ્ક્રેચપેડ રાખતા સાધન-ઉપયોગી એજન્ટો,

…DSA પ્રતિ-ટોકન ગણતરી અને મેમરી ઘટાડે છે. તમે સંદર્ભને ત્યાં ધકેલી શકો છો જ્યાં તે ખરેખર ઉપયોગી છે, વિન્ડોવાળી હેક્સની પરેડ યોજવાને બદલે. પ્રારંભિક vLLM સપોર્ટ સૂચવે છે કે આ માત્ર બેન્ચ-બ્લિંગ નથી—તે ત્યાં ચાલે છે જ્યાં લોકો મોડેલ્સ જમાવે છે.

ચેતવણીઓ (એટલે કે મંગળવારે કોઈએ શા માટે વિજય જાહેર કરવો જોઈએ નહીં)

ઉમેદવારની પસંદગી મફત નથી. જો પસંદગી રૂટીન કેશ લાઇન પર ઠોકર મારે છે અથવા તમને CPU-GPU પિંગ-પોંગમાં ધકેલે છે, તો તમારી સ્પાર્સિટી જીત બાષ્પીભવન થઈ જાય છે.

k એ બજેટ છે, જન્મસિદ્ધ અધિકાર નથી. ખૂબ નાનું અને તમે ક્રોસ-રેફરન્સ છોડી દો છો જે મહત્વપૂર્ણ છે. ખૂબ મોટું અને તમે ગાઢ તરફ પાછા ફરો છો.

તાલીમ વિ. અનુમાન મેળ ખાતો નથી. જો તમારું મોડેલ ગાઢ તાલીમ પામેલું હોય અને તમે તેને અનુમાન પર સ્પાર્સ ચલાવો છો, તો ગુણવત્તા ડ્રિફ્ટની અપેક્ષા રાખો. DSA ના સૌથી મજબૂત પરિણામો ત્યારે દેખાય છે જ્યારે સ્પાર્સિટી એ તાલીમ આહારનો ભાગ હોય છે, માત્ર સર્વિંગ-ટાઇમ ગાર્નિશ નથી.

લાંબી પૂંછડીની વિચિત્રતા. સ્પાર્સ પેટર્ન ક્યારેક 30K ટોકન્સ પછી ક્યાંય બહારથી કોલબેક પર વાગી જાય છે. સારા હાઇબ્રિડ સામયિક ગ્લોબલ્સ અથવા શીખેલા એન્કર સાથે હેજ કરે છે.

જો આ બધું કોઈ પુસ્તક માટે સારી ઇન્ડેક્સ બનાવવા જેવું લાગે છે, તો તે એટલા માટે છે. ખૂબ ટૂંકું અને તમને કંઈપણ મળી શકતું નથી; ખૂબ લાંબુ અને તે ફરીથી માત્ર પુસ્તક છે.

DSA સંભવિત રૂપે શું રાખવું તે કેવી રીતે પસંદ કરે છે

અમલીકરણ દ્વારા વિગતો બદલાય છે, પરંતુ પ્લેબુક આના જેવી લાગે છે:

સ્થાનિક વિન્ડો: સ્લાઇડિંગ વિન્ડોની અંદર પાડોશીઓને રાખો—મોટાભાગનું ભાષા માળખું સ્થાનિક છે. 2) સામયિક/વૈશ્વિક ટોકન્સ: નિયમિત “બિકન” દાખલ કરો જે હંમેશા વૈશ્વિક સ્તરે જોડાય છે. 3) સેલિયન્સ સ્કોરિંગ: હળવા વજનના સંકેતોનો ઉપયોગ કરો—અગાઉના સ્તરના સક્રિયકરણો, કેશ્ડ મહત્વ અથવા ટોપ-કે સમાનતા જેવા અંદાજોથી—વધારાના દૂરના ટોકન્સ પસંદ કરવા માટે. 4) કોમ્પેક્ટ એટેન્શન: માત્ર રાખેલા સેટના યુનિયન પર જ ધ્યાન આપો. 5) દરેક સ્તર દીઠ પુનરાવર્તન કરો, વિવિધ હેડ્સને વિવિધ માળખાઓ પસંદ કરવાની મંજૂરી આપે છે.

આ રૂઢિચુસ્તતા નથી; તે માત્ર એટલું જ આશ્ચર્યજનક છે કે જે કામ કરી શકે. અને દેખીતી રીતે તે કરે છે, આધુનિક અનુમાન સ્ટેક્સમાં ઓપરેશનલ સપોર્ટ લેન્ડિંગને જોતાં.

DSA વિ. ચંકિંગ વિ. રિટ્રીવલ: તમારું ઝેર પસંદ કરો

નિષ્કપટ ચંકિંગ: ઝડપી, પરંતુ મૂર્ખ—સંદર્ભની સીમાઓ ખડકો બની જાય છે. થ્રુપુટ માટે સારું, કોઈપણ સૂક્ષ્મ વસ્તુ માટે ખરાબ.

રિટ્રીવલ-ઓગમેન્ટેડ જનરેશન: સ્માર્ટર, પરંતુ બરડ—રિટ્રીવરને યાદ રાખવા પર આધાર રાખે છે કે જનરેટરને પછીથી શું જરૂર પડશે.

DSA-શૈલીનું સ્પાર્સ એટેન્શન: આખો થ્રેડ સંદર્ભમાં રાખે છે, ગણતરી ત્યાં કેન્દ્રિત છે જ્યાં તેની ગણતરી થાય છે. તે રિટ્રીવલને બદલતું નથી; તે રિટ્રીવલને ઓછી ક્રચ બનાવે છે.

પ્રામાણિક ઉકેલ એ એક મિશ્રણ છે: સંબંધિત ડોક્સને ખેંચવા માટે રિટ્રીવલ, ગલન કર્યા વિના લાંબી સિક્વન્સ પર તર્ક કરવા માટે સ્પાર્સ એટેન્શન. તમે તમારા ક્લાઉડ બિલને ધિક્કાર્યા વિના બંને કરી શકો છો.

ગુણવત્તા: શું તે હજી પણ સમજે છે?

મિલિયન-ડોલરનો પ્રશ્ન એ છે કે શું સ્પાર્સ એટેન્શન શાંતિથી વાક્યો વચ્ચેનો અર્થ છોડી દે છે. DeepSeek મોડેલ્સ માટેના પ્રારંભિક અહેવાલો સૂચવે છે કે લાંબા સંદર્ભમાં ગુણવત્તા જળવાઈ રહે છે અથવા સુધરે છે કારણ કે મોડેલ અર્થહીન જોડીવાળા સ્કોર્સ પર સંભાવના સમૂહને બગાડતું નથી. યુક્તિ એ છે કે k અને વૈશ્વિક માળખાને ટ્યુન કરવું જેથી મોડેલ પાસે પ્રોમ્પ્ટ દ્વારા વિશ્વસનીય આધાર હોય. અને ફરીથી, લૂપમાં સ્પાર્સિટી સાથે તાલીમ મહત્વપૂર્ણ છે—મોડેલ્સ અનુકૂલન કરે છે. તે મેન્યુઅલ ટ્રાન્સમિશન સાથે ડ્રાઇવિંગ શીખવા જેવું છે; એકવાર તમને લય મળી જાય, પછી તમે ઑટોને મિસ કરશો નહીં.

જમાવટની વાસ્તવિકતા: કર્નલ્સ, કેશ્સ, શેડ્યૂલર્સ

vLLM સપોર્ટ નોંધને કૉલ કરવા યોગ્ય છે: DSA એ માત્ર એક પેપર યુક્તિ નથી; કર્નલ સપોર્ટ અને શેડ્યૂલિંગમાં વાસ્તવિક કાર્ય ચાલી રહ્યું છે જેથી તે સ્કેટર-ગેધર થિયેટ્રિક્સ સાથે GPU ને સ્થગિત ન કરે. બ્લોક-સ્પાર્સ કર્નલો, ફ્યુઝ્ડ ઓપ્સ અને કાળજીપૂર્વક KV-કેશ લેઆઉટ આ સામગ્રીને બનાવે છે અથવા તોડી નાખે છે. સ્પાર્સ એટેન્શનમાં સૌથી ખરાબ પરિણામો મેમરી બેન્ડવિડ્થ અને લોન્ચ ઓવરહેડ સાથે સંપૂર્ણપણે સંવેદનશીલ વિચારો અથડાવાથી આવે છે. જ્યારે તે સંભાળવામાં આવે છે, ત્યારે સ્પાર્સિટી ગાય છે.

DSA ક્યાં ચમકે છે

સંરચિત દસ્તાવેજો પર લાંબા-સંદર્ભ Q&A. સ્થાનિક + બિકન મિશ્રણ ધ્યાન ભર્યા વિના વિભાગો અને ક્રોસ-રેફરન્સને ટ્રેક કરે છે.

કોડબેઝ તર્ક. સ્થાનિક વિન્ડો આંતરિક-ફાઇલ સંદર્ભને કેપ્ચર કરે છે; સામયિક/વૈશ્વિક લિંક્સ ફાઇલો, ફંક્શન કોલ્સ અને આયાત પર સવારી કરે છે.

સ્ક્રેચપેડ્સવાળા એજન્ટો. સ્પાર્સ એટેન્શન એજન્ટને પાંચમા પૃષ્ઠ પછી નોનસેન્સમાં ડિગ્રેડ થયા વિના લાંબી વર્કિંગ મેમરી રાખવા દે છે.

DSA ક્યાં નથી (હજી સુધી)

નાના પ્રોમ્પ્ટ્સ. ગાઢ ધ્યાન સારું છે; સ્પાર્સ ઓવરહેડ સરભર ન થઈ શકે.

ઉચ્ચ સ્તરે ગૂંચવાયેલી કવિતા અથવા પઝલ પ્રોમ્પ્ટ્સ કે જેને સ્પષ્ટ માળખાકીય સંકેતો વિના ઘાસની ગંજીમાં સોયની જેમ કૂદકા મારવાની જરૂર હોય છે. તમે હજી પણ k ને ટ્યુન કરી શકો છો, પરંતુ પદ્ધતિ કોયડાઓ કરતાં પેટર્નને વધુ પસંદ કરે છે.

Sider.AI વિશે શું?

આ તકનીકો માટે અહીં પરીક્ષણ છે: શું તેઓ વપરાશકર્તાઓને અવેતન QA એન્જિનિયરોમાં ફેરવ્યા વિના સાધનોને વધુ સારા બનાવે છે? મારા રનમાં, જે સાધનો સ્પાર્સ એટેન્શનને સારી રીતે એકીકૃત કરે છે—ખાસ કરીને દસ્તાવેજ અને કોડ ચેટ માટે—તે ઓછા સ્વભાવગત લાગે છે. Sider.AI અહીં ખરેખર રમે છે: જ્યારે તમે 80-પૃષ્ઠની સ્પષ્ટીકરણોમાં પેસ્ટ કરી રહ્યાં હોવ અથવા રેપો દ્વારા ઘસડી રહ્યાં હોવ, ત્યારે 47મા પૃષ્ઠ વિશે સ્થગિત થયા વિના અથવા ભ્રમિત થયા વિના લાંબો, સુસંગત થ્રેડ જાળવવાની ક્ષમતા મહત્વપૂર્ણ છે. માર્કેટિંગ “ફાઇન-ગ્રેઇન્ડ સ્પાર્સિટી” વિશે બડાઈ મારતું નથી, અને તે સારું છે. વપરાશકર્તાઓને લાગે છે કે તે પ્રતિભાવશીલ રહે છે, સંદર્ભને સીધો રાખે છે અને વેગાસમાં સપ્તાહાંતની જેમ ખર્ચ થતો નથી. જો તમે મોટા, અવ્યવસ્થિત ઇનપુટ્સ સાથે કામ કરી રહ્યા છો, તો આ વર્ગની એટેન્શન યુક્તિ એ બરાબર એવા પ્રકારનો અન્ડર-ધ-હુડ ફેરફાર છે જે ઓછા ખામીઓ અને ઝડપી જવાબો તરીકે દેખાય છે.

વ્યવહારુ માર્ગદર્શન: જો તમે DSA નો ઉપયોગ કરવો કે નહીં તે નક્કી કરી રહ્યાં છો

તમારો સંદર્ભ નિયમિતપણે >32K ટોકન્સ છે: હા, તેનું મૂલ્યાંકન કરો.

તમે તમારા જમાવટ સ્ટેકના માલિક છો (vLLM, Triton કર્નલ્સ, KV-કેશ ટ્યુનિંગ): હા, ખાસ કરીને.

તમે ગાઢ-તાલીમ પામેલા વજનથી અટવાયેલા છો અને ફરીથી તાલીમ આપી શકતા નથી: કાળજીપૂર્વક પરીક્ષણ કરો; આંશિક સ્પાર્સિટી અથવા હેડ-વિશિષ્ટ સ્પાર્સિટીનો વિચાર કરો.

લેટન્સી-સંવેદનશીલ, ઉચ્ચ-QPS વર્કલોડ્સ: આ તે છે જ્યાં વળાંક વાળવાનું મહત્વપૂર્ણ છે. p95 અને p99 માપો.

અને કૃપા કરીને, GPU ની દરેક વસ્તુના પ્રેમ માટે, વાસ્તવિક પ્રોમ્પ્ટ્સ સાથે બેંચમાર્ક કરો, કૃત્રિમ લોરેમ ઇપ્સમ નહીં. સ્પાર્સ પદ્ધતિઓ સુસંગતતાના વાસ્તવિક વિતરણો પર જીવે છે અથવા મરી જાય છે.

મેટા-પોઈન્ટ: સારા સ્વાદ તરીકે સ્પાર્સિટી

આની એક સૌંદર્યલક્ષીતા છે. જે મોડેલો દરેક વસ્તુ પર સમાનરૂપે ધ્યાન આપે છે તે એવી મીટિંગો જેવા છે જ્યાં દરેક જણ વાત કરે છે. લોકશાહી લાગે છે, કંઈપણ પૂર્ણ કરતું નથી. DSA ની સંવેદનશીલતા સંપાદકીય છે: રસપ્રદ ભાગો પર ધ્યાન કેન્દ્રિત કરો, એક આધાર જાળવો અને બજેટ રાખો. જો તમને મશીન લર્નિંગ કરતાં વધુ વ્યાપક પાઠ જોઈતો હોય, તો તે ત્યાં છે. સારી સિસ્ટમો બધું કરતી નથી. તેઓ યોગ્ય વસ્તુઓ ઝડપથી કરે છે.

અનિવાર્ય ભવિષ્ય: તાલીમ સ્પાર્સ, સેવા સ્પાર્સ

અમે સ્પાર્સ પેટર્ન સાથે એન્ડ-ટુ-એન્ડ તાલીમ પામેલા વધુ મોડેલો જોઈશું. તે તે છે જ્યાં ગુણવત્તા અને સ્થિરતાના છેલ્લા 10–15% આવે છે: મોડેલના ઇન્ડક્ટિવ પૂર્વગ્રહોને સર્વિંગ પાથ સાથે સંરેખિત થવા દેવું. જો તમે સ્પાર્સ સર્વ કરો છો પરંતુ ગાઢ તાલીમ આપો છો, તો તમે મોડેલને ફ્રીવે પર ગિયર્સ બદલવાનું કહી રહ્યા છો. તે કામ કરી શકે છે, પરંતુ જ્યારે તે લર્ચ થાય ત્યારે આઘાત ન પામશો.

દરમિયાન, ફ્રેમવર્ક સ્પાર્સ પેટર્નને કમ્પોઝેબલ બનાવશે: સ્થાનિક વિન્ડો + સામયિક ગ્લોબલ્સ + શીખેલા એન્કર + રિટ્રીવલ-અવેર ટોકન્સ. તે છેલ્લો ભાગ—રિટ્રીવર સેલિયન્સ અને એટેન્શન સેલિયન્સ વચ્ચે લૂપ બંધ કરવું—આગળનું સ્પષ્ટ પગલું લાગે છે. જ્યારે તમે જે ખેંચો છો તે તમે જેના પર ધ્યાન આપો છો તેને જાણ કરે છે, ત્યારે તમે બે અડધા-આંધળા સિસ્ટમો વચ્ચે પિંગ-પોંગ કરવાનું બંધ કરો છો.

તો DSA કેવી રીતે કામ કરે છે? ટૂંકો જવાબ

તે દરેક ટોકન માટે સંભવિત રૂપે સંબંધિત ટોકન્સનો એક સંક્ષિપ્ત સમૂહ પસંદ કરે છે—મોટાભાગે સ્થાનિક લોકો, કેટલાક ગ્લોબલ્સ, કેટલાક સ્માર્ટ પિક્સ.

તે માત્ર તે સમૂહ પર જ ધ્યાન આપે છે, ગણતરીને ક્વાડ્રેટિકથી લગભગ સંદર્ભ લંબાઈમાં રેખીય સુધી ઘટાડે છે.

તે કાળજીપૂર્વક કર્નલ્સ અને કેશ લેઆઉટ પર આધાર રાખે છે જેથી સૈદ્ધાંતિક બચત વાસ્તવિક લેટન્સી જીત તરીકે દેખાય.

તે માળખું અને પૂરતી વૈશ્વિક કનેક્ટિવિટી જાળવી રાખીને ગુણવત્તા જાળવી રાખે છે જેથી લાંબા ગાળાના સંદર્ભો ખોવાઈ ન જાય.

બસ આટલું જ. કોઈ ધૂપ નહીં, કોઈ મંત્રો નહીં. માત્ર શું ધ્યાન આપવું તે અંગેનો સારો સ્વાદ લાગુ કરવામાં આવ્યો છે.

ટ્વિસ્ટ એન્ડિંગ (કારણ કે હંમેશા એક હોય છે)

દરેક AI યુક્તિમાં આખરે નિરાશાની ક્ષણ આવે છે. સ્પાર્સ એટેન્શન કંઈક મહત્વપૂર્ણ ચૂકી જશે, કદાચ એક હોશિયાર વિવેચક દ્વારા ઘડવામાં આવેલા પ્રોમ્પ્ટમાં જે આગ્રહ રાખે છે કે મોડેલે શ્લોક ત્રણને ભાષાઓમાં શ્લોક છત્રીસ સાથે જોડવો જોઈએ જ્યારે ફંક્શન હસ્તાક્ષરને જગલિંગ કરવું જોઈએ. દંડ. પરંતુ મોટાભાગનું વાસ્તવિક કાર્ય કવિતા-સ્લેશ-બેન્ચમાર્ક નથી—તે ટેક્સ્ટ, કોડ અને હકીકતો દ્વારા ગ્રાઇન્ડીંગ કરે છે. તેના માટે, DSA માત્ર એક સરસ વિચાર નથી. તે એક મોડેલ વચ્ચેનો તફાવત છે જે તમારા સંદર્ભને વાંચવાનો ડોળ કરે છે અને જે ખરેખર કરી શકે છે.

અને જો તમે ક્લાઉડ બજેટમાં છિદ્ર પાડ્યા વિના તે કરી શકો છો? તે કોઈ યુક્તિ નથી. તે પ્રગતિ છે.

FAQ

Q1:ડીપસીક સ્પાર્સ એટેન્શન (DSA) સાદી ભાષામાં કેવી રીતે કામ કરે છે? DSA એટેન્શનને મહત્વના ટોકન્સ સુધી મર્યાદિત કરે છે—મોટાભાગે નજીકના ટેક્સ્ટ, થોડા વૈશ્વિક એન્કર, વત્તા ઉચ્ચ-સિગ્નલ પિક્સની ટૂંકી સૂચિ. O(L²) સરખામણીઓને બદલે, તે O(Lk) ચલાવે છે, ગણતરી કાપીને માળખું જાળવી રાખીને ગુણવત્તા જાળવી રાખે છે.

Q2:શું લાંબા સંદર્ભ માટે DSA ચંકિંગ અથવા રિટ્રીવલ કરતાં વધુ સારું છે? DSA દરેક વસ્તુને એક થ્રેડમાં રાખે છે જ્યારે ગણતરીને ત્યાં કેન્દ્રિત કરે છે જ્યાં તેની ગણતરી થાય છે; ચંકિંગ ખડકો બનાવે છે અને રિટ્રીવલ ભૂલી શકે છે. શ્રેષ્ઠ સેટઅપ્સ ક્વાડ્રેટિક ટેક્સ વિના લાંબા સંદર્ભમાં તર્ક કરવા માટે DSA સાથે મેળવવા માટે રિટ્રીવલને મિશ્રિત કરે છે.

Q3:શું ગાઢ ધ્યાનની તુલનામાં DSA મોડેલની ગુણવત્તાને નુકસાન પહોંચાડશે? જો તમે સ્પાર્સિટીને ધ્યાનમાં રાખીને તાલીમ આપો છો અને સેવા આપો છો (અને k ને સમજદારીથી સેટ કરો છો), તો ગુણવત્તા જળવાઈ રહે છે—ઘણીવાર લાંબા સંદર્ભો માટે વધુ સારી કારણ કે મોડેલ ઓછા-મૂલ્યવાળી જોડીઓમાં ડૂબી જતું નથી. ગાઢ-તાલીમ પામેલા વજન પર સર્વ-સ્પાર્સ ડ્રિફ્ટ થઈ શકે છે, તેથી વાસ્તવિક પ્રોમ્પ્ટ્સ સાથે બેંચમાર્ક કરો.

Q4:કયા વર્કલોડ્સને DSA થી સૌથી વધુ ફાયદો થાય છે? લાંબા-સંદર્ભ દસ્તાવેજ Q&A, કોડબેઝ નેવિગેશન અને એજન્ટ સ્ક્રેચપેડ્સ. ગમે ત્યાં સિક્વન્સની લંબાઈ વધે છે અને ગાઢ ધ્યાન લેટન્સી, મેમરી પ્રેશર અને વધતા ખર્ચમાં ફેરવાય છે.

Q5:શું vLLM જમાવટ માટે DSA ને સપોર્ટ કરે છે? હા—તાજેતરની પોસ્ટ્સ ડીપસીકની ફાઇન-ગ્રેઇન્ડ સ્પાર્સ એટેન્શન માટે સપોર્ટને એકીકૃત કરતું vLLM દર્શાવે છે, કર્નલ અને શેડ્યૂલર કાર્ય સાથે તેને પ્રોડક્શન પાઇપલાઇન્સમાં વ્યવહારુ બનાવવા માટે.