ስለ “አብዮታዊ” የአቴንሽን ስልቶች የሚገርመው ነገር ሁሉም አስማተኛ ሲመለከቱ አንገታቸውን እንደሚነቀንቁ ነው፣ ከዚያም በጸጥታ ማንም ዘዴውን እንዲያብራራላቸው እንደማይጠይቃቸው ተስፋ ያደርጋሉ። DeepSeek Sparse Attention (DSA) ከእነዚያ ዘዴዎች አንዱ ነው—ብልህ፣ ፈጣን፣ እና ዝርዝሮቹን ከተመለከቷቸው፣ በመቶ የሚቆጠሩ የሂሳብ ገጾችን ሳታነቡ ለመረዳት የሚያስችል ነው። የተስፋው ቃል፡ የማሰብ ችሎታውን ጠብቆ ማስላት የሚጠይቀውን ታክስ ማስወገድ። እውነታው፡ ይለያያል፣ ግን በዚህ ጊዜ ጥቅሙና ጉዳቱ የሚያድስ ነው።
ወደ ቁም ነገሩ እንግባ፡ DSA ትላልቅ የቋንቋ ሞዴሎች ትኩረት መስጠት ያለባቸው ነገሮች ላይ ብቻ እንዲያተኩሩ የሚያስችል መንገድ ነው። በከፊል አይደለም። “ምናልባት ተዛማጅ ነው” የሚል አይደለም። ከራስን በራስ አቴንሽን በሚገኝ የኳድራቲክ ፍንዳታ የሚቀንስ ጥቃቅን የሆነ ስፓርስ አቴንሽን ንድፍ ነው—ሞዴሉ የቆመበትን ቅርንጫፍ ሳይቆርጡ። የድሮው ሞዴል አቴንሽን እያንዳንዱ ቃል ከሌላው ቃል ጋር የዓይን ግንኙነት ማድረግ ያለበት ክፍል ከሆነ፣ DSA ወደ ኢንትሮቨርትስ ወደሚበለጽጉበት ድግስ ይለውጠዋል፡ ቀጥተኛ መንገዶች፣ አነስተኛ ትርጉም የሌላቸው ጥቃቅን ወሬዎች፣ እና በጣም ያነሰ ድምጽ።
DeepSeek Sparse Attention ምንድን ነው፣ በእርግጥ?
DSA የራስን በራስ አቴንሽን ስሌት ከ O(L²) ወደ O(Lk) የሚቀንስ ስፓርስ አቴንሽን ዘዴ ነው፣ L የቅደም ተከተል ርዝመት ሲሆን k ደግሞ ለእያንዳንዱ ቶከን “የተቀመጡ” ግንኙነቶች ብዛት ነው—የተመረጡት፣ ሊዛመዱ የሚችሉ ጎረቤቶች። በአንድ መስመር ላይ ያለው ሃሳብ ይህ ነው። ትንሽ ሂሳብ፣ የበለጠ ትርጉም፡ እያንዳንዱ ቶከን ከሌላው ቶከን ጋር ራሱን ከማወዳደር ይልቅ DSA ንዑስ ስብስብን ይመርጣል—ጎረቤቶች፣ ርዕሶች፣ መስኮቶች፣ “መልሕቆች፣” ለአምሳያው በጣም ምክንያታዊ የሆነ ማንኛውም ሄውሪስቲክስ ወይም የተማረ ፖሊሲ—ስለዚህ ጊዜን በማይረባ ነገር ላይ አታባክኑም።
ይህ የሚያውቁት የሚመስልዎ ከሆነ፣ እውነት ነው፡ ስፓርስ አቴንሽን አዲስ ነገር አይደለም። Longformer፣ BigBird፣ block-sparse kernels፣ እና ደርዘን “አካባቢያዊ + ዓለም አቀፍ” ድቅል ነበሩን። የተለመደው ችግር የስፓርስ ንድፎች ወይ ማስታወስን ያጣሉ (በገለባ ክምር ውስጥ መርፌውን ያመልጣሉ)፣ ወይም በብቃት ለመተግበር በጣም የሚያሠቃዩ ከመሆናቸው የተነሳ በንድፈ ሀሳብ የሚቆጥቡት ማንኛውም ነገር እንደ ከርነል ትርፍ ይመለሳል። DSA ዝነኛ የሆነበት ምክንያት ሁለት ነው፡ አንደኛ፣ የስፓርሲቲው ንድፍ ከተራው ብሎክ ስፓርሲቲ የበለጠ ጥቃቅን እና ተለዋዋጭ ነው፤ ሁለተኛ፣ በእውነተኛ የማስተዋል ክምችቶች ላይ በሚሠራ መንገድ ከጫፍ እስከ ጫፍ ተተግብሯል—vLLM ን ጨምሮ።
ቅድመ-ግምት፡ የመብረቅ ኢንዴክሰር፣ የሣር ማጨጃ አይደለም
ያየሁት በጣም ጠቃሚው ምሳሌ፡ DSA እንደ መብረቅ ኢንዴክሰር ይሠራል። መላውን መስክ አይቆርጥም፤ ወደ አስፈላጊው ነገር ይሄዳል—አንድ ጥሩ አርታኢ ሦስት አንቀጾችን ሰርዞ የሚዘምረውን ዓረፍተ ነገር እንደሚያስቀምጥ። ስርዓቱ ለእያንዳንዱ ቶከን አነስተኛ ቁጥር ያላቸው ከፍተኛ-ምልክት ግንኙነቶችን ይጠብቃል—በተወሰነ የተዛማጅነት ውጤት ከፍተኛ-k ብለው ያስቡ—በተጨማሪም ቀጭን የአከርካሪ አጥንት (የአከባቢ መስኮቶች፣ ወቅታዊ ዓለም አቀፍ ቶከኖች) ስለዚህ የረጅም ርቀት ትስስር ወደ ገንፎነት እንዳይቀየር።
መሃንዲሶች ከአመሳስሎው በኋላ ስላለው ክፍል ያስባሉ፡ “ተዛማጅነት” በተግባር ምን ማለት ነው? የተለያዩ የDSA ጽሑፎች በአቅራቢያ እና ቀደም ሲል በነበረው አስፈላጊነት እጩ ቁልፎችን ስለሚመርጡ ሄውሪስቲክሶች ፍንጭ ይሰጣሉ፣ ከዚያም በእነዚያ እጩዎች መካከል ጥብቅ ትኩረት ይደረጋል። አስማት አይደለም፤ ትሪጅ ነው። ግልጽ የሆኑትን ጎረቤቶች (የአካባቢው ሁኔታ ለአብዛኛው ቋንቋ ሁልጊዜ ጠቃሚ ነው)፣ ዓለም አቀፋዊ “ምልክቶችን” ይጨምሩ እና ትኩረትን በተስፋ ወደሚያሳዩ ከዊንዶው ውጭ ቶከኖች ይምሩ። የተጣራ ውጤት፡ የማፈላለጊያ ቦታውን ሳይጎዱ ወደ መጠኑ ያወርዳሉ። በትክክል ሲሠራ፣ ይህ መቁረጥ ሳይሆን ጨዋነት ይመስላል።
ሂሳብ፣ አነስተኛ እትም
- ሙሉ በሙሉ ራስን በራስ አቴንሽን፡ O(L²d)፣ d የርዕስ ልኬት ባለበት።
- DSA: O(Lkd). ለቋሚ k፣ ያ በ L ውስጥ መስመራዊ ነው። ይህ ለረጅም ሁኔታዎች አስፈላጊ ነው። በ128K ቶከኖች፣ የጂፒዩ ሂሳብዎ ያመሰግንዎታል።
- ሞዴሉ ለእያንዳንዱ ቶከን ተለዋዋጭ የእጩዎች ስብስብ ይይዛል። ለእጩ ምርጫ እና በእነሱ መካከል ላለው ትክክለኛ ትኩረት ይከፍላሉ። የእጩ ምርጫው ቬክተር ከተደረገ እና መሸጎጫን የሚያውቅ ከሆነ ያሸንፋሉ፤ ካልሆነ ግን ፊኛ እየጨመቁ ነው።
በሁሉም ስፓርስ ዘዴዎች ውስጥ ያለው ውጥረት ያ ነው፡ አስምፕቶቲክስን ይቀንሱ፣ ነገር ግን በዳታ እንቅስቃሴዎ እና ከርነል ማስጀመሪያ ትርፍ ላይ እንደገና አያስገቡት። በDSA ዙሪያ ያሉ ትግበራዎች ከርነል-ደረጃ ድጋፍ እና የጊዜ ሰሌዳ አወጣጥ ላይ አፅንዖት ይሰጣሉ፣ እና የቅርብ ጊዜ ልጥፎች vLLM ድጋፍ በእውነተኛ የማሰማራት ቅንብሮች ላይ እንዲሠራ ለማድረግ በትክክል ማረፉን ያሳያሉ።
DSA አሁን ለምን አስፈላጊ ነው?
ምክንያቱም ረጅም ኮንቴክስት አዲሱ የስክሪን መጠን ጦርነት ነው። ሁሉም ሰው 200K ቶከኖች እና ከዚያ በላይ ይፈልጋል—ስክሪፕቶች፣ የኮድ ቤዝ፣ የህሊናዎ መጠን ያላቸው ፒዲኤፎች። በእነዚያ ርዝመቶች ያለው ኳድራቲክ አቴንሽን ለድብርት፣ ለተላለፈ መጠን እና ለወጪ መነሻ አይደለም። በተንኮል በመከፋፈል እና በማውጣት ሊያጭበረብሩት ይችላሉ፣ ነገር ግን ያ ማለት ግንዱ መሙላት ስላቆመ በመኪናዎ ውስጥ የመጻሕፍት መደርደሪያ እንደመጫን ነው። የDSA ክርክር ቀላል ነው፡ ትክክለኛው የአቴንሽን እርምጃ በሞኝነት ውድ እንዳይሆን ማድረግ።
አንድ የጎንዮሽ ጉዳት መረጋጋት ነው። በጣም ረጅም በሆኑ ቅደም ተከተሎች ላይ ሙሉ ትኩረት በቁጥር የሚነካ እና የማስታወስ ችሎታ ያለው ሊሆን ይችላል። ስፓርስ አቴንሽን የሚሰራውን ስብስብ ያሳንሳል እና ሞዴሉ በደካማ ጥንድ ውጤቶች ውስጥ በመስጠም “የመርሳት” እድልን ይቀንሳል። የአከርካሪ አጥንት እና ትንሽ የተስማሚነት ቁራጭ ከላይ ያስቀምጣሉ። አንድ ጊዜ ከወረቀት ማሳያ ይልቅ እንደ ምህንድስና ውሳኔ የሚሰማው ተግባራዊ ስምምነት ነው።
DSA በስፓርስ መካነ አራዊት ውስጥ የት ነው የሚገባው
- ቋሚ ቅጦች (የአከባቢ መስኮቶች፣ መስፋፋቶች)፡ ፈጣን፣ ግን ተሰባሪ። የእድል ስታቲስቲክስዎ ከፍተኛ ካልሆነ በስተቀር የረጅም ርቀት መስቀለኛ ማጣቀሻዎችን ያጣል።
- ዓለም አቀፍ ቶከኖች፡ መልሕቆችን ይጨምራል። የተሻለ፣ ግን ግልጽ ያልሆነ። በሁሉም ነገር ላይ “CLS” መለጠፍ እና ማስታወስ ብለው መጥራት አይችሉም።
- በተማሩ ፖሊሲዎች በኩል ማዞር፡ በፖታቲካል ደረጃ ጥሩ፣ በተግባር ግን የተዝረከረከ። የሥልጠና ውስብስብነት እና ደካማ ማስተዋል።
- የDSA ጥቃቅን ድቅል፡ አካባቢያዊነትን፣ የተዋቀሩ ዓለም አቀፎችን እና ከፍተኛ-ምልክት ምርጫዎችን የሚያቀላቅል ለእያንዳንዱ ቶከን የታመቀ የእጩዎች ስብስብን ይምረጡ። ነጥቡ ብልህ መሆን አይደለም—ድብርትዎ እና ጥራትዎ ሁለቱም እንዲመዘኑ በቋሚነት በቂ መሆን ነው።
አፈጻጸም፡ የ O(L²) የታክስ ተመላሽ
እስካሁን ያለው ሽፋን ከፍተኛ የወጪ ቅነሳዎችን ይገልጻል—“ግማሽ መቀነስ” ወጪዎች በአስደሳች ክፍሎች ውስጥ ይታያል—ነገር ግን ነጥቡ ትክክለኛው ቁጥር አይደለም፣ ነገር ግን የመለኪያ ኩርባው ለረጅም ጥያቄዎች እና ለከፍተኛ ተዛማጅነት ወደ አዋጭነት መመለሱ ነው። የሥራ ጫናዎችዎ የሚከተሉት ከሆኑ፡
- RAG እና የሰነድ ውይይት ከ100+ ገጾች በላይ፣
- ረጅም የስክሪፕት ቦታዎችን የሚይዙ መሣሪያ የሚጠቀሙ ወኪሎች፣
…DSA ለእያንዳንዱ ቶከን ስሌት እና ማህደረ ትውስታን ይቀንሳል። የመስኮት ጠለፋዎችን ሰልፍ ከማዘጋጀት ይልቅ ኮንቴክስትን በትክክል ወደሚጠቅምበት ቦታ መግፋት ይችላሉ። ቀደምት የvLLM ድጋፍ ይህ አግዳሚ ወንበር ብቻ እንዳልሆነ ይጠቁማል—ሰዎች ሞዴሎችን በሚያሰማሩበት ቦታ ይሠራል።
ማስጠንቀቂያዎች (በሌላ አነጋገር ማንም ሰው ማክሰኞ ዕለት ድልን ማወጅ የለበትም)
- የእጩ ምርጫ ነፃ አይደለም። የምርጫው ተግባር የመሸጎጫ መስመሮችን ካቋረጠ ወይም ወደ ሲፒዩ-ጂፒዩ ፒንግ-ፖንግ የሚገፋፋዎት ከሆነ፣ የስፓርሲቲ ድሎችዎ ይተናሉ።
- k በጀት ነው፣ የትውልድ መብት አይደለም። በጣም ትንሽ እና አስፈላጊ የሆኑ መስቀለኛ ማጣቀሻዎችን ይጥላሉ። በጣም ትልቅ እና ወደ ጥቅጥቅነት ይመለሳሉ።
- ከሥልጠና ጋር አለመጣጣም። ሞዴልዎ ጥቅጥቅ ተደርጎ የሰለጠነ ከሆነ እና በማስተዋል ጊዜ ስፓርስ ቢያካሂዱት የጥራት ለውጥ ይጠብቁ። የDSA በጣም ጠንካራ ውጤቶች የሚታዩት ስፓርሲቲ የሥልጠናው አመጋገብ አካል ሲሆን የአገልግሎት ጊዜ ጌጥ ብቻ አይደለም።
- ረጅም ጭራ እንግዳነት። ስፓርስ ቅጦች ከየትም ሳይመጣ ከ30 ሺህ ቶከኖች በኋላ ጥሪውን ሊያጡ ይችላሉ። ጥሩ ድቅል ወቅታዊ ዓለም አቀፎችን ወይም የተማሩ መልሕቆችን ይጠብቃሉ።
ይህ ሁሉ ለአንድ መጽሐፍ ጥሩ መረጃ ጠቋሚ እንደማዘጋጀት የሚመስል ከሆነ፣ ምክንያቱም እውነት ነው። በጣም አጭር እና ምንም ነገር ማግኘት አይችሉም፤ በጣም ረጅም እና ልክ እንደ መጽሐፉ ነው።
DSA ምን እንደሚቀመጥ እንዴት ሊመርጥ ይችላል
ዝርዝሮች በትግበራ ይለያያሉ፣ ነገር ግን የመጫወቻ መጽሐፉ የሚከተለውን ይመስላል:
- የአካባቢ መስኮት፡ በአንድ ተንሸራታች መስኮት ውስጥ ጎረቤቶችን ያስቀምጡ—አብዛኛው የቋንቋ መዋቅር አካባቢያዊ ነው። 2) ወቅታዊ/ዓለም አቀፍ ቶከኖች፡ በመደበኛነት በዓለም አቀፍ ደረጃ የሚገናኙ መደበኛ “ቢኮኖችን” ያስገቡ። 3) የሳሊየንስ ነጥብ መስጠት፡ ተጨማሪ የርቀት ቶከኖችን ለመምረጥ ቀላል ክብደት ያላቸውን ምልክቶች—ከቀድሞ የንብርብር አክቲቬሽኖች፣ ከተሸጎጠ አስፈላጊነት ወይም እንደ ከፍተኛ-k ተመሳሳይነት ካሉ ግምቶች ይጠቀሙ። 4) የታመቀ ትኩረት፡ ትኩረትን በሚቀመጠው ስብስብ ህብረት ላይ ብቻ ያሂዱ። 5) በተለያየ ንብርብር ይድገሙት፣ የተለያዩ ራሶች የተለያዩ መዋቅሮችን እንዲመርጡ በመፍቀድ።
ይህ ኦርቶዶክስ አይደለም፤ ሊሠራ የሚችል በጣም አነስተኛ የሚያስደንቅ ነገር ነው። እና በዘመናዊ የማስተዋል ክምችቶች ውስጥ የሚወርደውን የአሠራር ድጋፍ ከግምት ውስጥ በማስገባት በግልጽ ይሠራል።
DSA ከChunking vs. Retrieval፡ መርዝዎን ይምረጡ
- ዋህ ቻንኪንግ፡ ፈጣን፣ ግን ደደብ—የኮንቴክስት ወሰኖች ገደሎች ይሆናሉ። ለተላለፈ መጠን ጥሩ፣ ለማንኛውም ስውር ነገር መጥፎ።
- Retrieval-augmented generation: ብልህ፣ ግን ደካማ—አስታዋሹ ጀነሬተሩ በኋላ ምን እንደሚፈልግ በማስታወስ ላይ የተመሠረተ ነው።
- DSA-ስታይል ስፓርስ አቴንሽን፡ ሙሉውን ክር በአውድ ውስጥ ያስቀምጣል፣ ስሌት አስፈላጊ በሆነበት ቦታ ላይ ያተኩራል። መልሶ ማግኘትን አይተካም፤ መልሶ ማግኘትን የመደገፊያ ያደርገዋል።
ሐቀኛው መፍትሔ ድብልቅ ነው፡ ተዛማጅ ሰነዶችን ለማውጣት መልሶ ማግኛ፣ ሳይቀልጡ በረጅም ቅደም ተከተሎች ላይ ለማመዛዘን ስፓርስ ትኩረት። የደመና ሂሳብዎን ሳይጠሉ ሁለቱንም ማድረግ ይችላሉ።
ጥራት፡ አሁንም ይረዳል?
የሚሊዮን ዶላር ጥያቄ ስፓርስ ትኩረት በአረፍተ ነገሮች መካከል ያለውን ትርጉም በጸጥታ መጣል አለመሆኑ ነው። የ DeepSeek ሞዴሎች የመጀመሪያ ሪፖርቶች ጥራቱ በረጅም ኮንቴክስት ላይ እንደሚቆይ ወይም እንደሚሻሻል ይጠቁማሉ ምክንያቱም ሞዴሉ ትርጉም በሌላቸው ጥንድ ውጤቶች ላይ የፕሮባቢሊቲ መጠኑን አያባክንም። ዘዴው k እና ዓለም አቀፋዊ መዋቅርን ማስተካከል ነው ስለዚህ ሞዴሉ በጥያቄው ውስጥ አስተማማኝ የአከርካሪ አጥንት አለው። እና እንደገና፣ በሉፕ ውስጥ ስፓርሲቲን ማሠልጠን አስፈላጊ ነው—ሞዴሎች ይስማማሉ። በእጅ ማስተላለፊያ መንዳት እንደ መማር ነው፤ አንዴ ምት ካገኙ በኋላ ራስ-ሰርውን አያመልጡዎትም።
የማሰማራት እውነታ፡ ከርነሎች፣ መሸጎጫዎች፣ መርሐግብሮች
የvLLM ድጋፍ ማስታወሻ ትኩረት የሚስብ ነው፡ DSA የወረቀት ዘዴ ብቻ አይደለም፤ የከርነል ድጋፍ እና የጊዜ ሰሌዳ አወጣጥ ላይ እውነተኛ ሥራ እየተሠራ ነው ስለዚህ ጂፒዩውን በተበታተነ-በማሰባሰብ ቲያትሮች አያቆመውም። ብሎክ-ስፓርስ ከርነሎች፣ የተዋሃዱ ኦፕሬሽኖች እና ጥንቃቄ የተሞላበት የ KV-መሸጎጫ አቀማመጥ ይህንን ነገር ይሠራሉ። በስፓርስ ትኩረት ውስጥ ያሉት በጣም መጥፎ ውጤቶች ፍጹም ምክንያታዊ የሆኑ ሃሳቦች ከማህደረ ትውስታ የመተላለፊያ ይዘት እና የማስጀመሪያ ትርፍ ጋር በመጋጨት ነው። እነዚያ ሲስተናገዱ ስፓርሲቲ ይዘምራል።
DSA የሚያበራበት
- በተዋቀሩ ሰነዶች ላይ ረጅም-ኮንቴክስት ጥያቄ እና መልስ። የአካባቢ + ቢኮን ድብልቅ ክፍሎችን እና መስቀለኛ ማጣቀሻዎችን ትኩረትን ሳያጥለቀልቅ ይከታተላል።
- የኮድቤዝ ምክንያታዊነት። የአካባቢ መስኮቶች የውስጠ-ፋይል ኮንቴክስትን ይይዛሉ፤ ወቅታዊ/ዓለም አቀፋዊ አገናኞች በፋይሎች፣ በተግባር ጥሪዎች እና በማስመጣት ላይ ይጋልባሉ።
- የስክሪፕት ቦታዎች ያላቸው ወኪሎች። ስፓርስ ትኩረት ወኪሉ ከአምስተኛው ገጽ በኋላ ወደ ከንቱነት ሳይወርድ ረጅም የሥራ ማህደረ ትውስታን እንዲይዝ ያስችለዋል።
DSA የት የማይሠራበት (ገና)
- ትንንሽ ጥያቄዎች። ጥቅጥቅ ያለ ትኩረት ጥሩ ነው፤ የስፓርስ ትርፍ ላይቀንስ ይችላል።
- በጣም የተወሳሰቡ ግጥሞች ወይም ግልጽ መዋቅራዊ ፍንጮች ሳይኖሩት በገለባ ክምር ውስጥ መርፌ የሚጠይቁ የእንቆቅልሽ ጥያቄዎች። አሁንም k ማስተካከል ይችላሉ፣ ነገር ግን ዘዴው እንቆቅልሽዎችን ሳይሆን ቅጦችን ይወዳል።
ለማንኛውም ከእነዚህ ዘዴዎች ውስጥ ፈተናው ይህ ነው፡ ተጠቃሚዎችን ወደ ያልተከፈሉ የQA መሃንዲሶች ሳይቀይሩ መሣሪያዎችን የተሻሉ ያደርጋሉ? በእኔ ሩጫዎች፣ ስፓርስ ትኩረትን በደንብ የሚያዋህዱ መሣሪያዎች—በተለይ ለሰነድ እና ለኮድ ውይይት—ያነሰ ቁጡ ይሰማቸዋል። Sider.AI እዚህ በትክክል ይሠራል፡ የ80 ገጽ ዝርዝሮችን እየለጠፉ ወይም በሪፖ ውስጥ እየተዘዋወሩ ከሆነ፣ ሳይቆም ወይም ስለ ገጽ 47 ቅዠት ሳያዩ ረጅም እና ወጥ የሆነ ክር የማቆየት ችሎታ አስፈላጊ ነው። የግብይት ክፍል ስለ “ጥቃቅን ስፓርሲቲ” አይኩራራም፣ እና ያ ጥሩ ነው። ተጠቃሚዎች ምላሽ ሰጪ ሆኖ መቆየቱን፣ ኮንቴክስትን ቀጥ አድርጎ መያዙን እና እንደ ቬጋስ የሳምንት መጨረሻ ወጪ አለመሆኑን ያስባሉ። በትልልቅ እና በተዝረከረኩ ግብአቶች እየሠሩ ከሆነ፣ የዚህ ዓይነት የአቴንሽን ዘዴ በሥሩ ላይ የሚደረግ ለውጥ ነው፣ ይህም ጥቂት ጉድለቶች እና ፈጣን መልሶች ሆነው ይታያሉ። ተግባራዊ መመሪያ፡ DSA መጠቀም እንዳለብዎ እየወሰኑ ከሆነ
- ኮንቴክስትዎ በመደበኛነት ከ>32K ቶከኖች በላይ ነው፡ አዎ፣ ይገምግሙት።
- የማሰማሪያ ክምችትዎን ባለቤት ነዎት (vLLM, Triton kernels, KV-መሸጎጫ ማስተካከያ)፡ አዎ፣ በተለይ።
- ጥቅጥቅ ያለ የሰለጠኑ ክብደቶች ላይ ተጣብቀዋል እና እንደገና ማሰልጠን አይችሉም፡ በጥንቃቄ ይፈትሹ፤ ከፊል ስፓርሲቲ ወይም የራስ-ተኮር ስፓርሲቲን ያስቡበት።
- በድብርት የሚነኩ፣ ከፍተኛ-QPS የሥራ ጫናዎች፡ ኩርባው መታጠፉ አስፈላጊ የሆነው እዚህ ነው። p95 እና p99 ይለኩ።
እና እባክዎን፣ ለሁሉም የጂፒዩ ነገሮች ፍቅር ሲባል፣ እውነተኛ ጥያቄዎችን ይዘው ይለኩ፣ ሰው ሠራሽ ሎሬም ኢፕሱም አይደለም። ስፓርስ ዘዴዎች በተጨባጭ የተዛማጅነት ስርጭቶች ላይ ይኖራሉ ወይም ይሞታሉ።
ሜታ-ነጥብ፡ ስፓርሲቲ እንደ ጥሩ ጣዕም
ይህ ውበት አለው። ሁሉም ሰው በእኩልነት የሚከታተሉ ሞዴሎች ሁሉም የሚነጋገሩባቸው ስብሰባዎች ይመስላሉ። ዲሞክራሲያዊ ይመስላል፣ ምንም ነገር አይፈጽም። የDSA ስሜት አርታኢ ነው፡ ትኩረት የሚስቡ ክፍሎች ላይ ያተኩሩ፣ የአከርካሪ አጥንትን ይጠብቁ እና በጀትን ያስቀምጡ። ከማሽን መማር የበለጠ ትምህርት ከፈለጉ፣ እዚያ አለ። ጥሩ ስርዓቶች ሁሉንም ነገር አያደርጉም። ትክክለኛዎቹን ነገሮች በፍጥነት ያደርጋሉ።
የማይቀር የወደፊት፡ ስፓርስ አሠልጥኑ፣ ስፓርስ አገልግሉ
ከስፓርስ ቅጦች ጋር ከጫፍ እስከ ጫፍ የሰለጠኑ ተጨማሪ ሞዴሎችን እናያለን። የጥራት እና የመረጋጋት የመጨረሻዎቹ 10–15% የሚመጡት ከዚያ ነው፡ የሞዴሉን ኢንዳክቲቭ አድሎአዊነት ከአገልግሎት መስጫ መንገዱ ጋር እንዲጣጣም መፍቀድ። ስፓርስ እያገለገሉ ነገር ግን ጥቅጥቅ እያሠለጠኑ ከሆነ፣ ሞዴሉ በሀይዌይ ላይ ማርሽ እንዲቀይር እየጠየቁት ነው። ሊሠራ ይችላል፣ ነገር ግን ሲያዘገይ አትደንግጡ።
ይህ በእንዲህ እንዳለ፣ ማዕቀፎች ስፓርስ ቅጦችን ሊጣመሩ ያደርጋቸዋል፡ የአካባቢ መስኮቶች + ወቅታዊ ዓለም አቀፎች + የተማሩ መልሕቆች + መልሶ ማግኘትን የሚያውቁ ቶከኖች። ያ የመጨረሻው ቁራጭ—በአስታዋሽ ሳሊየንስ እና በአቴንሽን ሳሊየንስ መካከል ያለውን ሉፕ መዝጋት—የሚቀጥለው ግልጽ እርምጃ ይመስላል። የሚመልሱት ነገር ምን ላይ ማተኮር እንዳለብዎ ሲያውቅ፣ በሁለት ግማሽ ዓይነ ስውር ስርዓቶች መካከል ፒንግ-ፖንግ ማድረግ ያቆማሉ።
ስለዚህ DSA እንዴት ይሠራል? አጭር መልስ
- ለእያንዳንዱ ቶከን ሊዛመዱ የሚችሉ ቶከኖች የታመቀ ስብስብን ይመርጣል—በአብዛኛው አካባቢያዊ፣ ጥቂት ዓለም አቀፋዊ፣ አንዳንድ ብልጥ ምርጫዎች።
- ትኩረትን በዚያ ስብስብ ላይ ብቻ ያካሂዳል፣ ስሌትን ከኳድራቲክ ወደ በግምት መስመራዊ በኮንቴክስት ርዝመት ይቀንሳል።
- ቲዎሪቲካል ቁጠባዎች እውነተኛ ድብርት ድሎች ሆነው እንዲታዩ በጥንቃቄ በተሠሩ ከርነሎች እና መሸጎጫ አቀማመጥ ላይ የተመሠረተ ነው።
- መዋቅርን እና በቂ ዓለም አቀፋዊ ግንኙነትን በመጠበቅ ረጅም ርቀት ማጣቀሻዎች እንዳይጠፉ ጥራትን ይጠብቃል።
ያ ነው። ምንም ዕጣን፣ ምንም ድግምት። በምን ላይ ማተኮር እንዳለበት ላይ ጥሩ ጣዕምን ማስፈጸም።
የማዞሪያ ፍጻሜ (ምክንያቱም ሁልጊዜ አንዱ አለ)
እያንዳንዱ የAI ዘዴ በመጨረሻ የብስጭት ጊዜ አለው። ስፓርስ ትኩረት የሆነ ጠቃሚ ነገር ያጣዋል፣ ምናልባትም ሞዴሉ ሶስተኛውን ስታንዛ ከሰላሳ ሰባተኛው ስታንዛ ጋር በተለያዩ ቋንቋዎች በተግባር ፊርማ በሚያስተናግድበት ጊዜ ማገናኘት እንዳለበት በሚያጸና ብልህ ተቺ በተሠራ ጥያቄ ውስጥ። ጥሩ። ነገር ግን አብዛኛው እውነተኛ ሥራ ግጥም-በአግዳሚ ወንበር አይደለም—ጽሑፍን፣ ኮድን እና እውነታዎችን መፍጨት ነው። ለዚያ፣ DSA ጥሩ ሀሳብ ብቻ አይደለም። ኮንቴክስትዎን ለማንበብ ከሚመስለው ሞዴል እና በትክክል ከሚችለው መካከል ያለው ልዩነት ነው።
እና ያንን በደመና በጀት ውስጥ ቀዳዳ ሳያቃጥሉ ማድረግ ከቻሉ? ያ ዘዴ አይደለም። ያ እድገት ነው።
FAQ
Q1:DeepSeek Sparse Attention (DSA) በእንግሊዝኛ እንዴት ይሠራል?
DSA ትኩረትን ወደ አስፈላጊዎቹ ቶከኖች ይቀንሳል—በአብዛኛው በአቅራቢያ ያሉ ጽሑፎች፣ ጥቂት ዓለም አቀፋዊ መልሕቆች፣ በተጨማሪም ከፍተኛ-ምልክት ምርጫዎች አጭር ዝርዝር። ከO(L²) ንጽጽሮች ይልቅ O(Lk) ያካሂዳል፣ ስሌትን በሚቀንስበት ጊዜ መዋቅርን በመጠበቅ ጥራትን ይጠብቃል።
Q2:DSA ለረጅም ኮንቴክስት ከቻንኪንግ ወይም መልሶ ማግኛ የተሻለ ነው?
DSA ሁሉንም ነገር በአንድ ክር ውስጥ ያስቀምጣል፣ ስሌትን በሚቆጥርበት ቦታ ላይ በሚያተኩርበት ጊዜ፤ ቻንኪንግ ገደሎችን ይፈጥራል እና መልሶ ማግኛ የሚረሳ ሊሆን ይችላል። በጣም ጥሩው ማዋቀሮች መልሶ ለማውጣት መልሶ ማግኘትን ከDSA ጋር በኳድራቲክ ታክስ ሳይከፍሉ ረጅም ኮንቴክስት ላይ ለማመዛዘን ይቀላቅላሉ።
Q3:DSA ከጥቅጥቅ ትኩረት ጋር ሲነጻጸር የሞዴልን ጥራት ይጎዳል?
ስፓርሲቲን በአእምሮህ ይዘህ ካሰለጠንክ እና ካገለገልክ (እና kን በአግባቡ ካስቀመጥክ)፣ ጥራቱ ይቆያል—ብዙውን ጊዜ ለረጅም ኮንቴክስቶች የተሻለ ነው ምክንያቱም ሞዴሉ በዝቅተኛ ዋጋ ጥንዶች ውስጥ አይሰጥም። በጥቅጥቅ በሰለጠኑ ክብደቶች ላይ ስፓርስ ማገልገል ሊዘናጋ ይችላል፣ ስለዚህ በእውነተኛ ጥያቄዎች ይለኩ።
Q4:የትኞቹ የሥራ ጫናዎች ከDSA በጣም ይጠቀማሉ?
ረጅም-ኮንቴክስት ሰነድ ጥያቄ እና መልስ፣ የኮድቤዝ አሰሳ እና የወኪል ስክሪፕት ቦታዎች። የቅደም ተከተል ርዝመት በሚጨምርበት እና ጥቅጥቅ ያለ ትኩረት ወደ ድብርት፣ የማህደረ ትውስታ ግፊት እና እየጨመረ የሚሄድ ወጪ በሚቀየርበት ቦታ ሁሉ።
Q5:vLLM ለማሰማራት DSAን ይደግፋል?
አዎ—የቅርብ ጊዜ ልጥፎች vLLM ለDeepSeek ጥቃቅን ስፓርስ ትኩረት ድጋፍን እንደሚያዋህድ ያሳያሉ፣ ከርነል እና የጊዜ ሰሌዳ ሥራ በምርት መስመሮች ላይ ተግባራዊ ለማድረግ።