መግቢያ: የፍጥነት ወጥመድ
በ AI መደምደሚያ ላይ “ፈጣን” የሚለው ነገር ሁሉም ሰው ስለሚፈልገው ነው፣ ነገር ግን ምን ማለት እንደሆነ ማንም አይስማማም። ለአንድ ተጠቃሚ ዝቅተኛ መዘግየት (latency) ይፈልጋሉ? በብዙ ጥያቄዎች ላይ ከፍተኛ ግብዓት (throughput)? የተሻለ ቶከኖች በዶላር? ወይስ ማሳያዎ በቪፒ ፊት እንዳይሞት ጥቂት ጊዜ ማለፎች? “SGL ከ vLLM” ጋር ያለው ንጽጽር በ Hacker News ላይ ቀላል የሚመስል ሆኖ ነገር ግን ሰዎች በትክክል የሚጠቀሙበትን ነገር ለመላክ ሲሞክሩ ወደ ሽክርክሪት የሚቀየር አይነት ነው።
የወረቀት ፎጣዎችን በምንይዝበት አይነት የአገልጋይ ማዕቀፎችን (frameworks) እንድንይዝ ተምረናል: ሁሉም ፍሳሹን ያነሳሉ፣ “በጣም የሚስብ” የሆነውን ይምረጡ። በተግባር፣ SGL እና vLLM የተለያዩ አይነት መጥረጊያዎች ናቸው። ተመሳሳይ ጥፋቶችን በተለያዩ ፊዚክስ ይፈታሉ—እና ጂፒዩዎችዎ በሚቀልጡበት ጊዜ የጥያቄ መርሐግብር እንዴት መሥራት እንዳለበት እንግዳ የሆኑ አስተያየቶች አሏቸው።
ትንሽ ማጋነን እንቀንስ፣ ግምቶቹን እንፈትሽ እና SGL ከ vLLM በትክክል የት እንደሚለያዩ እንነጋገር—እንዲሁም “ስህተት የሆነውን” መምረጥዎ እና ደህና መሆንዎ ለምን ሊሆን ይችላል።
SGL ከ vLLM: ጥያቄው ምንድን ነው፣ በእውነት?
- የቁልፍ ቃል አመጋገብዎ “SGL ከ vLLM” ከሆነ፣ ትክክለኛው ጥያቄዎ ምናልባት የሚከተለው ይሆናል- የትኛው አገልጋይ ከድራማ ያነሰ ተመሳሳይ ጂፒዩ ተጨማሪ ቶከኖችን ያገኛል?
- ወይም- የትኛው ነው ግብዓትን ወደ ዱባ ሳይቀይር ሞዴሌን ለአሳታፊ መተግበሪያዎች ምላሽ ሰጪ የሚያደርገው?
- ወይም፣ በይበልጥ በሐቀኝነት፡- አርብ ላይ የትኛውን ማሰማራት እችላለሁ እና ሰኞ ላይ አልጸጸትም?
ያ ፍሬም ነው። ዝርዝሮቹ አስፈላጊ ናቸው፣ ግን በእኩልነት አይደለም።
vLLM ለምን እንደተመቻቸ (እና ያልሆነው)
የ vLLM ምርት ስም በአእምሮ የሚሰራ ግብዓት ነው። ዋናው ባህሪ ፔጅድአቴንሽን (PagedAttention) ነው፣ ይህም የ KV መሸጎጫውን እንደ ቆሻሻ መሳቢያ ሳይሆን እንደ ማህደረ ትውስታ-የሚተዳደር ስርዓት የሚይዝ የ VRAM ገጽ አቀማመጥ ዘዴ ነው። ውድ የሆነውን የጂፒዩ ማህደረ ትውስታን በመሙላት እና ዞምቢ አውዶች ሳያባክኑ ብዙ ተጓዳኝ ጥያቄዎችን ማሸግ ይችላሉ። የሰልፍ ስርዓቱ ለቡድን፣ ለተጓዳኝ ትውልድ የተመቻቸ ነው—ብዙ ተጠቃሚዎችን፣ ብዙ ቻቶችን ወይም በትንንሽ እስከ መካከለኛ ጥያቄዎች እየተደበደበ ያለውን የ API የመጨረሻ ነጥብ ያስቡ።
በቀላል አማርኛ፡ vLLM ስለ ማህደረ ትውስታ እና መርሐግብር በማሰብ በአንድ ጂፒዩ ተጨማሪ በአንድ ጊዜ ትውልድ እንዲኖርዎ ያደርጋል። በተለመዱ ቅርጾች ጥሩ በሆነ መንገድ አሰልቺ ነው—ወግ አጥባቂ ነባሪዎች፣ ጠንካራ አፈጻጸም እና በቀላሉ የመሥራት ዝንባሌ አለው።
የት እንደሚነክሱ: እጅግ በጣም አነስተኛ መዘግየት ያለው መስተጋብራዊ UX (ነጠላ ተጠቃሚ ጥብቅ loops)፣ በደንብ ያልተስተካከሉ ጥያቄዎች (ግዙፍ ግብዓት + ትንሽ ውጤት፣ ወይም በተቃራኒው) እና ጥቃቅን ቅጥያዎች (ብጁ ንብርብሮች፣ የተበጀ መጠናዊነት፣ ወይም የደም-ጫፍ ናሙና ዘዴዎች) አንዳንድ ጊዜ የ vLLM መከላከያዎችን ይቃወማሉ። ለአብዛኞቹ ቡድኖች መላኪያ መስመር ነው—ጫፍ ላይ እስክትደርሱ እና መስመሩ ለምን እንደተፈጠረ እስክታውቁ ድረስ።
SGL ለምን እንደተመቻቸ (እና ለምን አስደሳች እንደሆነ)
የ SGL አቀራረብ ትንሽ የበለጠ ከፍተኛ ነው፡ ይበልጥ ብልጥ የሆነ መርሐግብርን በመጠቀም መዘግየትን እና ግብዓትን መጨመር—ይበልጥ ተለዋዋጭ ቅድሚያ መስጠት፣ በጥሩ ሁኔታ የተጋራ እና ማንኛውም ጥያቄ ሳይራብ መንጋው በፍጥነት እንዲንቀሳቀስ ተጓዳኝ ጥያቄዎችን ለማጣጣም ፈቃደኛ መሆን ነው። የ vLLM የማህደረ ትውስታ ሞዴል መደወያ ካርድ ከሆነ፣ የ SGL መርሐግብር አውጪው ነው። ግቡ ብዙ ወደ VRAM ውስጥ ማስገባት ብቻ ሳይሆን ረጅም አውዶች አጫጭር ጥያቄዎች ሲጠብቁ እንደታጠፈ ዓሣ ነባሪ ሳይቀመጡ የጂፒዩ የኮምፒዩተር መስመሮችን መመገብ ነው።
በተግባር፣ ያ ማለት የሥራ ጫናው ሲጨምር ወይም ሲቀላቀል SGL ብዙ ጊዜ ያበራል ማለት ነው—አንዳንድ ትላልቅ ጥያቄዎች፣ አንዳንድ አጫጭር ምላሾች፣ የትራፊክ ፍንዳታዎች እና የመዘግየት መጨመር የ UX ገዳይ የሆኑባቸው መስተጋብራዊ ክፍለ ጊዜዎች። እሱ “የተጨናነቀ የቡና መሸጫ” አገልጋይ ነው- ብዙ ትናንሽ ትዕዛዞች፣ አንድ ሰው 14 ንጥረ ነገሮችን የያዘ ብጁ ላቲ እና ትይዩ ማድረግን በትክክል የሚያውቅ ባሪስታ።
የማያስደስት እውነት፡ ይበልጥ ብልጥ የሆነ መርሐግብር ማለት ተጨማሪ ፖሊሲ ማለት ነው። ተጨማሪ ቁልፎች። ሊሳሳቷቸው የሚችሏቸው ተጨማሪ ውሳኔዎች። በጣም ቀላል፣ የሸቀጦች ማሰማራት ከፈለጉ፣ የ SGL ተለዋዋጭነት ብዙ ምርጫዎች በዘንዶ የሚያልቁበት የራስዎን ጀብዱ ይምረጡ የሚመስል ስሜት ሊሰማዎት ይችላል።
ዋናው ንግድ፡ መዘግየት ከግብዓት አንጻር ከትንበያ አንጻር
- መዘግየት፡ SGL ስለ ማመጣጠን የበለጠ ጠበኛ ስለሆነ ለተደባለቁ የስራ ጫናዎች የመጨረሻውን መዘግየት ይቀንሳል። vLLM ቋሚ ነው፣ ነገር ግን ሰልፉ ጥልቅ በሚሆንበት ጊዜ ቅድሚያ የሚሰጠው ለግብዓት ነው።
- ግብዓት፡ የ vLLM ፔጅድአቴንሽን በአንድ ሰከንድ በአንድ ጂፒዩ ለከፍተኛ ቶከኖች ተጓዳኝ ጥያቄዎችን በማሸግ ረገድ ጭራቅ ነው። ይበልጥ ብልጥ የሆነ ቅድሚያ መስጠት የኮምፒዩተር አረፋዎችን በሚከላከልባቸው በተቀላቀሉ የጭነት ሁኔታዎች ውስጥ SGL ሊመሳሰል ወይም ሊመታ ይችላል።
- ትንበያ፡ vLLM ለ “አሰልቺ እና የተረጋጋ” አሸናፊ ነው፣ SGL ደግሞ “ትራፊኩን በትክክል ባለኝ ቅርጽ ለማስያዝ ማስተካከል እችላለሁ” በሚለው ያሸንፋል። ትንበያ የሞራል በጎነት አይደለም; ለአንዳንድ ቡድኖች አስፈላጊ መስፈርት እና ለሌሎች ደግሞ ቀጥተኛ ጃኬት ነው።
ቡድን መመስረት እና የእራት-ሰዓት ችግር
አንድ ምግብ ቤት በዓይነ ሕሊናህ ይታይህ። vLLM እንደ Tetris ጠረጴዛዎችን በማዘጋጀት ሁሉንም ሰው በፍጥነት ያስቀምጣል፣ ስለዚህ አነስተኛ ባዶ ቦታ አለ። SGL ወለሉን ያካሂዳል፣ ነገር ግን አስተናጋጁ ኩሽናውንም በትንሹ ያስተዳድራል—ስለዚህ ስድስት-ቶፕ ጥብስ የሚጠብቁ ደርዘን ሁለት-ቶፖችን አያግድም። የ SGL ከ vLLM ያለው ነጥብ “ማን በፍጥነት ያስቀምጣል” የሚለው አይደለም፣ “የአውቶቡስ ጉብኝት ሲመጣ እና ግማሾቹ ከግሉተን ነፃ ሲሆኑ የመመገቢያ ክፍሉን ማን ያጉረመርማል” የሚለው ነው።
ትራፊክዎ ለስላሳ ከሆነ እና የጥያቄ ቅርጾችዎ ወጥነት ካላቸው፣ የ vLLM Tetris ያሸንፋል። ትራፊክዎ በፕሮምፕት ርዝመቶች ስርጭት የሚጨምር ከሆነ እና ለአሳታፊ ተጠቃሚዎች ለ 95ኛ ፐርሰንት የመዘግየት ጊዜ የሚጨነቁ ከሆነ፣ የ SGL የኩሽና ዳንስ ይከፍላል።
KV መሸጎጫ፡ እንግዳ ያልሆነው አንድ እንግዳ ዘዴ
ሁለቱም SGL እና vLLM ትኩረትን መሸጎጫ እንደ ውድ ብረት ይይዛሉ። የ vLLM ገጽ አቀማመጥ መደበኛ ዘዴ ነው፡ ቁልፎችን/እሴቶችን የታመቁ ያድርጉ፣ ያፍርሱ እና VRAMን በመሙላት ከማባከን ይቆጠቡ። የ SGL አቀራረብ መሸጎጫው ወደ መጣያ እንዳይቀየር መቼ እና እንዴት ሥራን ቀድሞ ስለማስቀመጥ እና ስለማቋረጥ ነው።
ሞዴልዎ ብዙ ተጓዳኝ ክፍለ ጊዜዎች ባሉበት ቦታ ላይ የሚስማማ ከሆነ፣ የ vLLM የማህደረ ትውስታ ቅልጥፍና በ “ይሠራል” እና “OOM” መካከል ያለው ልዩነት ሊሆን ይችላል። ሞዴልዎ በተመቻቸ ሁኔታ የሚስማማ ከሆነ ነገር ግን ተጠቃሚዎችዎ ስለ መዘግየት መጨመር የሚያጉረመርሙ ከሆነ፣ የ SGL መርሐግብር በ “ሊሠራ የሚችል” እና “አስደሳች” መካከል ያለው ልዩነት ሊሆን ይችላል።
የቶከን በጀት ማውጣት እና የሰዎች ግንዛቤ
ተጠቃሚዎች “ቶከኖች በሰከንድ” አይገነዘቡም። የሚገነዘቡት፡ መታ ማድረግ… መጠበቅ… ምላሽ ይጀምራል… ይፈስሳል… ተጠናቋል። ግብዓት ኢኮኖሚያዊ መለኪያ ነው; መዘግየት ሥነ ልቦናዊ ነው። የ SGL አድልዎ ወደ ሳይኮሎጂው ነው—የመጀመሪያዎቹን ቶከኖች እንዲፈስ ማድረግ እና የመጨረሻ መጨመርን መከላከል ነው። የ vLLM አድልዎ ወደ ኢኮኖሚክስ ነው—የተረጋጋ-ሁኔታ ትውልድን ከፍ ማድረግ። አንዳቸውም ስህተት አይደሉም። ነገር ግን ምርትዎ ምናልባት በአንድ መንገድ ዘንበል ይላል።
መጠናዊነት እና የካርዶች ቤት
እዚህ ላይ ነው ሥርዓታማ ታሪኮች የሚፈርሱት። 4-ቢት ወይም 8-ቢት መጠናዊነትን፣ ብጁ ከርነሎችን ወይም ከመንገድ ውጭ የሞዴል ሥነ ሕንፃዎችን በጣሉበት ቅጽበት፣ የትኛው ፕሮጀክት ዛሬ የሚፈልጉትን የከርነል ድጋፍ እንዳለው ውሳኔው ለእርስዎ ሊወሰን ይችላል። SGL ከ vLLM ጋር “ከ40 ደቂቃዎች በኋላ ያለ ሚስጥራዊ ትክክለኛነት መመለሻዎች ወይም ለስላሳ-ብልሽቶች የሚሠራው ምንድን ነው” ይሆናል።
ስለ መርሐግብር በፈለጉት መንገድ ማለም ይችላሉ; ከርነሎች የስበት ኃይል ናቸው። ለመላክ ያቀዱትን ትክክለኛ ሞዴል፣ dtype እና ጂፒዩ ማትሪክስን ያረጋግጡ። ከዚያ ማንንም እንደማታምኑ አድርገው ይፈትሹ—እራስዎን ጨምሮ።
የዥረት UX፡ የመጀመሪያው ቶከን ከመጨረሻው የበለጠ አስፈላጊ ነው
vLLM ለአብዛኞቹ መተግበሪያዎች በበቂ ሁኔታ ዥረት ያስተላልፋል። SGL የራስ-መስመር ማገድን በመቀነስ ላይ ያለው ትኩረት የተጠቃሚ ተሞክሮ በመጀመሪያው የቶከን ጊዜ የሚኖርበት ወይም የሚሞትበት ቦታ ላይ ጠርዝ ይሰጠዋል—“ይህ ፈጣን ነው የሚል ስሜት ይሰጣል” እና “ይህ ለምን እየተሽከረከረ ነው?” መካከል ያለው ልዩነት። መተግበሪያዎ የኮድ-ረዳት፣ የፍለጋ-የተጨመረ ውይይት ወይም የትኛውም ሰው በ loop ውስጥ የሚገኝበት ነገር ከሆነ፣ ያ የመጀመሪያው ቶከን ከጥሬ ቶከኖች በሰከንድ የበለጠ አስፈላጊ ነው።
በምትኩ፣ በቡድን ሳምንታዊ ሪፖርቶችን እያቀረቡ ወይም ረጅም-ቅጽ ውጤቶችን በአገልጋይ በኩል እያቀረቡ ከሆነ፣ የ vLLM የተረጋጋ-ሁኔታ ግብዓት በጂፒዩ ጊዜ ላይ ዶላሮችን መልሶ ያሸንፍልዎታል። ነገሩ በስተጀርባ የሚሠራ ሥራ ከሆነ የመጀመሪያው ቶከን በ 150 ሚሴ ወይም በ 450 ሚሴ መድረሱ ለማንም ግድ የለውም።
የ Ops እውነታ፡ ምዝግቦች፣ ገደቦች እና “ማን ነው የሚጠራው?” ፈተና
- vLLM: የበሰለ የሥራ ታሪክ። ለመከራከር ቀላል ነው። የቡድን መመስረት እና ገጽ አቀማመጥ ሊተነበይ የሚችል ስለሆነ ለአቅም ዕቅድ ግልጽ መለኪያዎች አሉት።
- SGL: ተጨማሪ ደውሎች። በሃይል የመጨመር ዕድል አለ። የትራፊክ ቅጦችዎን ሲያውቁ እና እነሱን ለመቅረጽ ፈቃደኛ ሲሆኑ የተሻለ ነው። ነገር ግን “በጠዋቱ 2 ሰዓት ላይ የሚጠራው” ታሪኩ የእርስዎ አሰራሮች እስከሚሆኑት ድረስ ብቻ ጥሩ ነው።
ጠቃሚ ሂዩሪስቲክ፡ ቡድንዎ የራሱን የ p95/p99 ግቦች እና ከገቢ ወይም ከ UX ጋር እንዴት እንደሚዛመዱ ማስረዳት ካልቻለ፣ ወደ vLLM ይመለሱ። ከቻሉ እና በተደባለቀ ጭነት ውስጥ ዝቅተኛ-ጅራት መዘግየትን ለመከታተል ምክንያት ካለዎት፣ SGL ውስብስብነቱን ያገኛል።
RAG እና የመተላለፊያ ይዘት-ከባድ ጥያቄ
መልሶ ማግኛ-የተጨመረ ትውልድ በግብዓት በኩል ነዳጅ ይጥላል። ከዐውደ-ጽሑፉ ቁርጥራጮች ጋር ግዙፍ ጥያቄዎች መዘግየትን ወደ ቶከንነት እና የግብዓት ማለፊያ ወጪ ተግባር ይለውጣሉ። የ vLLM የማህደረ ትውስታ ማሸግ እነዚህን ጭራቆች እርስ በርስ ለማስማማት ይረዳል። የ SGL መርሐግብር ጥቂት ዓሣ ነባሪዎች ፖድውን እንዳያቀዘቅዙ ይከላከላል። የእርስዎ RAG “ግዙፍ ጥያቄ + አጭር መልስ” የሚመስል ከሆነ፣ የ SGL ቅድሚያ መስጠት ነገሮችን በሕይወት እንዲኖሩ ያደርጋል። በዘላቂ መጠን “መካከለኛ ጥያቄ + መካከለኛ መልስ” ከሆነ፣ የ vLLM ማሸግ ያሸንፋል።
በትክክል ማስረዳት የሚችሏቸው የወጪ ሞዴሎች
- በጂፒዩ ሰዓት ቶከኖች፡ vLLM በከፍተኛ-ጭነት በተረጋጋ ሁኔታ ለማሸነፍ ይቀናል።
- በመስተጋብራዊ ክፍለ ጊዜ ወጪ፡ SGL በሰዎች ግንዛቤ ውስጥ ፍሬሞችን መጣል በማይችሉበት ጊዜ ለማሸነፍ ይቀናል።
- የኢንጂነሪንግ ጊዜ፡ vLLM ብዙውን ጊዜ ርካሽ ነው፣ በ SGL ላይ ጥልቅ ካልሆኑ እና ጥቅሞቹን ካላገኙ በስተቀር። የመቀያየር ወጪዎች እውነት ናቸው።
ይህ ሁሉ ፍጹም አይደለም። ነገር ግን CFOዎ ከጠየቀ፣ አሁን እንደ እንግሊዝኛ የሚመስሉ ዓረፍተ ነገሮች አሉዎት።
ቸል ማለት የሚገባቸው መለኪያዎች (እና የማይገባቸው)
የጥያቄ ቅርጽ ስርጭትን፣ የቡድን መጠንን፣ ከፍተኛውን ትይዩነት፣ የሞዴል dtype እና የጂፒዩ ሞዴልን የማያሳውቁ ነጠላ ቁጥር ገበታዎችን ችላ ይበሉ። መብራቱ በትክክል ያለበት የአካል ብቃት ፎቶዎች ናቸው። ጠቃሚ መለኪያዎች፡-
- የተደባለቀ የስርጭት ጭነት ሙከራዎች፡ አጫጭር፣ መካከለኛ፣ ረጅም ጥያቄዎች ከተለያዩ ከፍተኛ ቶከኖች ጋር ተደባልቀዋል።
- በፍንዳታ ስር የመጨረሻ መዘግየት፡ በሲሙሌት በተደረገ የትራፊክ መጨመር ወቅት p95/p99 የመጀመሪያ-ቶከን ጊዜን ይለኩ።
- የማህደረ ትውስታ የጭንቅላት ቦታ፡ ሞዴሉ እና kv መሸጎጫው በታለመው ትይዩነት ላይ ባለው ትክክለኛ የ OOM ህዳግ።
- ከጊዜ በኋላ መረጋጋት፡ ለስድስት ሰዓታት ያሂዱ; ቀስ ብሎ መፍሰስን፣ የግብዓት መንሸራተትን ወይም አልፎ አልፎ የሚቆሙትን ይመልከቱ።
ለሌላ ሰው ትራፊክ በሌላ ሰው ጂፒዩ ላይ ፈጣን ከሆነ “ፈጣን” ምንም ፋይዳ የለውም።
የገንቢ Ergonomics፡ ምን ያህል ረቂቅ ይፈልጋሉ?
vLLM ንጹህ ኤፒአይዎችን፣ ሊተነበዩ የሚችሉ አወቃቀሮችን እና ከታዋቂ የመሳሪያ ሰንሰለቶች ጋር መጣጣምን ይደግፋል። የሸቀጦች አገልግሎት ንብርብር ለሚፈልጉ ቡድኖች ደህንነቱ የተጠበቀ ነባሪ ነው። SGL ተጨማሪ የፖሊሲ ገጽታ ይሰጥዎታል፡ ቅድሚያ መስጠት፣ ቀድሞ የመወሰን ባህሪ እና የኮምፒዩተርዎን ቅርፅ ለመቅረጽ ክፍል። ከፈለጉ ወርቅ ነው—እና ካልፈለጉ በላይ ነው።
የቅጥያው ታሪክ ተመሳሳይ ነው። vLLM ከታዋቂ ሥነ-ምህዳሮች እና በይፋ ከሚስተናገዱ መድረኮች ጋር ቀደም ብሎ የመዋሃድ አዝማሚያ አለው። SGL በመርሐግብር ባህሪያት እና በላቁ ትይዩነት ላይ በፍጥነት ይንቀሳቀሳል። SGL ለምን እንደሚያስፈልግዎ ካወቁ፣ ምናልባት ያደርጉታል። ካላደረጉ፣ ምናልባት ገና አያደርጉትም።
የብዙ-ሞዴል መካነ አራዊት ችግር
አንድ ዋና ሞዴልን ማገልገል ያረጀ ነው። አብዛኛዎቹ እውነተኛ መተግበሪያዎች ብዙዎችን ያጣምራሉ- በትዕዛዝ የተስተካከሉ LLMዎች፣ ዳግም-ደረጃዎች፣ ማካተት እና ምናልባትም የእይታ-ቋንቋ ሞዴል። የ vLLM ትንበያ በአንድ ጊዜ በርካታ ሞዴሎች ላይ አቅምን መከፋፈል ቀላል ያደርገዋል። የ SGL መርሐግብር ትናንሽ፣ ከፍተኛ-ቅድሚያ ጥሪዎችን የሚገድቡ ረጅም ጊዜ የሚቆዩ አሳማዎችን ለማስወገድ መሣሪያዎችን ይሰጥዎታል—ነገር ግን ደንቦቹን ማዘጋጀት ያስፈልግዎታል። አውቶሜሽን ይረዳል፣ ነገር ግን ፖሊሲ አሁንም አእምሮ ያስፈልገዋል።
በአስተዳደር ላይ አንድ ቃል፡ SLAs ወይስ ንዝረቶች?
ለደንበኞች ቁጥሮችን የሚከፍሉ ከሆነ (SLA፣ SLO፣ የእርስዎን ምህፃረ ቃል ይምረጡ)፣ አሰልቺ ባህሪ ነው። የ vLLM ወጥነት መነሻዎችን ቃል መግባት እና እነሱን መምታት ቀላል ያደርገዋል። ምርትዎ ስለ “ስሜት” ብቻ ከሆነ እና ስሜቱ በቅጽበታዊ ግብረመልስ የሚገለጽ ከሆነ (IDE ኮፒሎቶችን ያስቡ)፣ SGL በጭንቀት ውስጥ የተጠቃሚ ተሞክሮን የመከላከል ችሎታ ተጨማሪ አስተሳሰብን የሚጠይቅ ነው።
ጂፒዩ ትክክለኛ መልስ በማይሆንበት ጊዜ
በጣም ሞቃታማው የአገልግሎት ቁልል ጥቂት ጂፒዩዎችን የሚጠቀም ነው። ሁለቱም SGL እና vLLM የአዋቂዎችን ነገር ሲያደርጉ ይጠቀማሉ፡ ጥሩ የአውድ መስኮቶች፣ ብልጥ መቁረጥ፣ የተሻለ መልሶ ማግኛ፣ የምላሽ መሸጎጫ እና ለእያንዳንዱ የአዝራር ጠቅታ LLM War and Peace እንዲጽፍ አለመጠየቅ። በጣም ርካሹ መዘግየት በጭራሽ የማያመነጩት ቶከን ነው።
በእውነተኛው ዓለም ያሉ ቅጦች (AKA፣ ሰዎች በትክክል እንዴት እንደሚመርጡ)
- AI መተግበሪያን በሚቀጥለው ሳምንት የሚልክ ጅምር፡ vLLM. ወደ ብቃት የሚወስደው ፍጥነት ያሸንፋል።
- መስተጋብራዊ UX እና የሚጨምር ትራፊክ ያለው ምርት፡ SGL፣ ለጅራት መዘግየት ተስተካክሏል።
- የጀርባ ባች ትውልድ፡ vLLM፣ የታሪኩ መጨረሻ።
- በ RAG-ከባድ ድጋፍ መሣሪያ፡ የጥያቄዎ መጠነ ሰፊ ከሆነ አቻ ሰባሪ ወደ SGL ይሄዳል; አለበለዚያ vLLM።
- የጂፒዩ ስፔሻሊስቶች የሌሉት ቡድን፡ vLLM. ማስመሰል አቁም።
- በመርሐግብር የሚደሰት የአፈጻጸም-አሳቢ መሪ ያለው ቡድን፡ SGL. በኃላፊነት ይደሰቱ።
SGL ከ vLLM ለኮድ እርዳታ እና IDEs
ይህ በጣም ግልጽ ከሆኑ ጉዳዮች አንዱ ነው። የኮድ ረዳቶች በተገነዘበው ምላሽ ሰጪነት ላይ ይኖራሉ እና ይሞታሉ። የመጀመሪያው ቶከን ፈጣን፣ ዥረቱ ቋሚ፣ ተጠቃሚው አቋራጩን በተከታታይ ሦስት ጊዜ ሲመታ የጅራት ጫፎችን ያስወግዱ። የ SGL ቅድሚያ-ተኮር የዓለም እይታ እዚህ ላይ ትርፍ ያስገኛል። vLLM በተለይ በጥንቃቄ አወቃቀር እና የጭንቅላት ቦታ ማድረግ ይችላል—ነገር ግን ብዙ ጊዜ የተወሰነ መዘግየትን በጠረጴዛው ላይ ይተዋሉ።
SGL ከ vLLM በስፋት ለሚገኙ ቻትቦቶች
ገለበጠው። ከፍተኛ እና ቋሚ የውይይት ትራፊክ—የድጋፍ ቦቶች፣ የውስጥ ረዳቶች፣ ሰፊ ጥያቄ እና መልስ—ለ vLLM የአቅም ማሸግ ስጦታ ነው። የእርስዎ ግራፍ በአብዛኛው ጠፍጣፋ ከሆነ እና የንግድ ሞዴሉ ቶከኖች በዶላር የሚክስ ከሆነ የሚፈልጉት ነው።
መካከለኛው መንገድ፡ ሁለቱንም ማሄድ ይችላሉ
የሚያስደነግጥ አቋም፡ የተለያዩ የሥራ ጫናዎች፣ የተለያዩ አገልጋዮች። መስተጋብር እና ዝቅተኛ የጅራት መዘግየት በሚፈልጉበት ቦታ SGL ያሂዱ; በጅምላ vLLM ያሂዱ። በመጨረሻው ነጥብ፣ በተከራይ ወይም በቀን ሰዓት እንኳን ይምሩ። የ ops በላይ እውነት ነው፣ ነገር ግን ከሐሰት ምርጫዎች ነፃነትን ይገዛሉ።
Sider.AI በትክክል ይሠራል—ቢያንስ ለእሱ ጥሩ በሆነው ሲጠቀሙበት፣ ይህም በሚገርም ሁኔታ የግብይት የሚለው አይደለም። ተግባራዊ የሆነ AI የሥራ ጣቢያ እና በራሱ የማጣበቂያ ኮድ ስር የማይወድቅ የስራ ፍሰት ስለሚያስፈልግ SGL ከ vLLM ጋር እየታገሉ ከሆነ፣ የ Sider የተቀናጀ አካባቢ ማንም በጀቱን የማያደርግበት ክፍል ነው፡ ጥያቄዎች፣ ሰነዶች እና ሙከራዎች የጭረት ሰሌዳ መተግበሪያን እና በቤት ውስጥ የሚሠራ መለኪያ ማሰሪያን ሳይፈጥሩ የሚኖሩበት አሰልቺ ገጽ። SGL ከ vLLM አይመርጥልዎትም—እንዲሁም ማድረግ የለበትም—ነገር ግን ሁለቱንም በሚፈትሹበት ጊዜ ቡድንዎን በውጤቶች ላይ እንዲያተኩር ያደርጋል። የብር ጥይት ከፈለጉ፣ ሌላ ቦታ ይመልከቱ። በ “ሃሳብ፣” “ጥያቄ፣” “አሂድ” እና “ላክ” መካከል ጥቂት ሹል ጠርዞች ከፈለጉ፣ Sider.AI ጥበቃውን የሚያገኘው እዚህ ላይ ነው። የተለመዱ ተቃውሞዎች፣ ያለ ስፒን መልስ ተሰጥቷቸዋል
- “በ SGL ግብዓት እናጣለን።” ምናልባት። በተመሳሳይ ጭነት ስር፣ ምናልባት። በተደባለቀ፣ በጨመረ ጭነት ስር፣ ምናልባት ላይሆን ይችላል—የጅራት መዘግየት ማሻሻያዎች ውጤታማ ግብዓትን ከፍ ሊያደርጉ ይችላሉ።
- “በ vLLM መዘግየት እናጣለን።” እንዲሁም ምናልባት። በግፊት ውስጥ፣ vLLM የመጀመሪያ-ቶከን ጊዜ ቢንሸራተትም ግብዓትን ይጠብቃል። በጭንቅላት ቦታ እና በጤናማ ገደቦች ማቃለል ይችላሉ።
- “vLLMን እንደ SGL እንዲሠራ ማስተካከል እንችላለን?” በከፊል። ቅድሚያ መስጠት፣ ከፍተኛ ቶከኖችን መቁረጥ እና ወረፋዎችን መቅረጽ ይችላሉ። ነገር ግን የመርሐግብር አውጪው ዲኤንኤ የተለየ ነው።
- “SGLን እንደ vLLM እንዲሠራ ማስተካከል እንችላለን?” እንዲሁም በከፊል። ነገር ግን SGLን ወደ vLLM በመቀየር ሳምንታት ካሳለፉ፣ የተሳሳተ መርጠዋል።
ውሳኔ ከማድረግዎ በፊት ተግባራዊ የፍተሻ ዝርዝር
- በእውነቱ አስፈላጊ የሆነውን መለኪያ ይግለጹ፡ p95 ጊዜ-ወደ-የመጀመሪያ-ቶከን፣ p99 መጨረሻ-ወደ-መጨረሻ መዘግየት፣ ቶከኖች-በዶላር ወይም በፍንዳታ ስር የብልሽት መጠን። አንድ ዋና መለኪያ እና አንድ መከላከያ ይምረጡ።
- ትክክለኛ የትራፊክ ስርጭትዎን ይድገሙት። መጫወቻ አይደለም። ትክክለኛ ጥያቄ/ምላሽ መጠን ሂስቶግራም፣ ትክክለኛ መጨመር።
- ለተረጋጋ ጭነት ቢያንስ ለአንድ ሰዓት ያህል በምርት መሰል ሃርድዌር ላይ ይሞክሩ። መንሸራተትን፣ መፍሰስን እና አልፎ አልፎ የሚቆሙትን ይመልከቱ።
- ለእርስዎ ትክክለኛ ሞዴል የከርነል እና የመጠን ድጋፍን ያረጋግጡ። ከዚያ ነጂዎችን ካሻሻሉ በኋላ እንደገና ያድርጉት።
- በስልክ ላይ ማን እንዳለ ይወስኑ እና እንዴት እንደሚመልሱት ይጻፉ።
ይህን ካላደረጉ vLLMን ይምረጡ እና ነባሪዎችን ይቀበሉ። ካደረጉ፣ SGL የተሻለ የተጠቃሚ ተሞክሮ እና ዝቅተኛ ጅራቶችን ሊገዛልዎ ይችላል፣ እዚያም ደስታ የሚደበቅበት።
ስለ የስደት አደጋ አጭር ቃል
በምርት ውስጥ የአገልግሎት ማዕቀፎችን መቀየር ቅዳሜና እሁድን የሚያበላሽ ዓይነት ሥራ ነው። ሁለቱንም መሞከር እንደሚፈልጉ ከጠረጠሩ፣ ያቅዱት፡ የጥያቄ/ምላሽ ንድፎችን ደረጃውን የጠበቀ ያድርጉ፣ የቶከንዘር እና የናሙና አወቃቀሮችን ተንቀሳቃሽ ያድርጉ እና አገልጋዩን በተከታታይ የውስጥ ደንበኛ ጀርባ ይደብቁ። መለያየት አማራጭነትን ይገዛልዎታል፣ ይህም “የወደፊቱ እርስዎ ያለፈውን እርስዎ አይጠሉም” የሚል የሚያምር ቃል ነው።
ሊመጣ እንደነበረ የሚያውቁት የዲያሌክቲካል ፍጻሜ
እዚህ ለመኳንንት ሥነ ሥርዓት ተስፋ አድርገው ከመጡ—ተነሱ፣ ሰር SGL; ወይም፣ vLLM ለረጅም ጊዜ ይኑር—የተሳሳተ ተረት መርጠዋል። ትክክለኛው መልስ በስራ ጫና የተገነባ ነው። vLLM ብዙ የሚጎትት እና የማያማርር አስተማማኝ ፒክአፕ መኪና ነው። SGL ቡናውን ሳያፈስ ትራፊክን የሚያልፍ የስፖርት ፉርጎ ነው። በየትኛውም መጓጓዝ ይችላሉ; ጉዞውን በተለየ መንገድ ይደሰቱታል።
ማስታወስ ያለብዎት ነገር፡ ተጠቃሚዎች የመዘግየትን ሁኔታ ይሰማቸዋል፤ የፋይናንስ ክፍል ደግሞ የውጤት መጠንን (throughput) ያውቃል። የእርስዎ ስራ ለማንም ሳትዋሹ ሁለቱን ማስታረቅ ነው። SGL ከ vLLM ጋር ማመሳከር ስሜትን መፈተሽ አይደለም። ‹ፈጣን› ከእንድ በላይ ገጽታ እንዳለው መቀበል ነው። እንደ ሰዎች ሁሉ የአገልግሎት አሰጣጥ ማዕቀፎችም በጫና ውስጥ ማንነታቸውን ያሳያሉ።
ዕድለኛ ከሆኑ በጭራሽ ሊያስፈልግዎ አይችልም። ጥሩ ከሆኑ መቼ እንደሆነ ያውቃሉ።
H2: የ SGL እና vLLM አፈጻጸም፡ የጅራት የመዘግየት ጊዜ (Tail Latency) ከውጤት መጠን (Throughput) ጋር ያለው ልዩነት
- SGL የ p95/p99 ጅራቶችን ለመቁረጥ እና በተቀላቀሉ ጫናዎች ውስጥ ለመጀመሪያው ቶከን የሚወስደውን ጊዜ ለማሻሻል በተለዋዋጭ መርሐግብር ላይ ያተኩራል።
- የ vLLM's PagedAttention ተጨማሪ ተጓዳኝ ጥያቄዎችን ወደ ተመሳሳይ VRAM በመጨመቅ በሰከንድ የሚተላለፉ ቶከኖችን በጂፒዩ ይጨምራል።
- ለይነተገናኝ UX እና ለአነስተኛ ትራፊክ SGL ን ይምረጡ፤ ለአስተማማኝ ከፍተኛ መጠን ያለው የውይይት ወይም የቡድን ስራ vLLM ን ይምረጡ።
H2: በምርት ውስጥ ለ SGL እና vLLM የአሰማርጫ አማራጮች
- የእርስዎን SLA ከማዘግየት (SGL-ተስማሚ) ወይም ከውጤት መጠን (vLLM-ተስማሚ) ጋር ያዛምዱ።
- ለሚጠቀሙበት ትክክለኛ ሞዴል እና ጂፒዩ የቁጥር አወሳሰንን (quantization) እና የከርነል ድጋፍን ያረጋግጡ።
- ወደ SGL እና vLLM በመጨረሻ ነጥብ (endpoint) ማዞር እንዲችሉ ተንቀሳቃሽ የደንበኛ ንብርብር (client layer) ያስቀምጡ።
H2: SGL እና vLLM ን በትክክለኛው መንገድ ማመሳከር
- በእውነተኛ የትራፊክ ቅርጾች ውስጥ የመጀመሪያውን የቶከን ጊዜ እና የመጨረሻውን ጊዜ ይለኩ።
- ለብዙ ሰዓታት በሚቆዩ ሩጫዎች ላይ የማህደረ ትውስታውን ትርፍ እና መረጋጋትን ይከታተሉ።
- የቡድን መጠንን እና የጥያቄ ስርጭትን የሚደብቁ ነጠላ ቁጥር ያላቸውን ቶከኖች/ሰከንድ ሽልማቶችን ያስወግዱ።
H3: በጣም የሚያሳስቡዎት የረጅም-ጅራት ቁልፍ ቃላት
- ‹‹SGL ከ vLLM መዘግየት አንጻር››
- ‹‹SGL ከ vLLM የውጤት መጠን አንጻር››
- ‹‹SGL ከ vLLM የኮድ አመንጪነት አንጻር››
- ‹‹SGL ከ vLLM የምርት አሰማመር አንጻር››
- ‹‹SGL ከ vLLM የጂፒዩ ማህደረ ትውስታ አንጻር››
ማጠቃለያ፡ ሊጠቀሙበት የሚችሉት ታማኝ መልስ
የሚመረጥ እና አስተማማኝ ነባሪ ከፈለጉ እና መለኪያው በረጅም ጊዜ ውስጥ ቶከኖች በዶላር ከሆነ vLLMን ይምረጡ። ተጠቃሚዎችዎ በሂደት ላይ ያሉ ሰዎች ከሆኑ እና ምርቱ በጫፍ ላይ ባለው በተጨባጭ ፍጥነት ላይ የሚወሰን ከሆነ SGL ን ይምረጡ። በየትኛው ካምፕ ውስጥ እንዳሉ መናገር ካልቻሉ በነባሪነት በ vLLM ካምፕ ውስጥ ነዎት—እና ያ ደህና ነው። መልካሙ ዜና ሁለቱንም ማስኬድ ይችላሉ። የተሻለው ዜና ሁለንተናዊ ሻምፒዮን አለ ብሎ ማስመሰል ማቆም ይችላሉ። SGL ከ vLLM በ‹‹ፈጣን›› ላይ በተወሰዱ ሁለት ብልጥ አስተያየቶች መካከል ያለ ምርጫ ነው። የተቀረው የእርስዎ የስራ ጫና፣ በጀት እና ጉጉት ናቸው።
ተደጋጋሚ ጥያቄዎች
Q1: የትኛው ፈጣን ነው፡ SGL ወይስ vLLM?
ፈጣን ማለትህ ምን ማለት እንደሆነ ይወሰናል። vLLM ለአስተማማኝ፣ ከፍተኛ-ተጓዳኝነት የውጤት መጠን ፈጣን ነው፤ SGL ደግሞ ለመጀመሪያው ቶከን ፈጣን ነው እንዲሁም በተቀላቀለ፣ አነስተኛ ጭነት ውስጥ ባለው ጅራት ላይ የበለጠ ወጥነት ያለው ነው። መለኪያው ቶከኖች በዶላር ከሆነ vLLM; የተገነዘበው መዘግየት ከሆነ, SGL.
Q2: SGL ከ vLLM ለ RAG የሥራ ጫናዎች የተሻለ ነው?
ትልቅ ጥያቄዎች እና አጫጭር መልሶች ላለው RAG፣ የ SGL መርሐግብር የመጀመሪያዎቹን የቶከን ጊዜያት እንዳይጨምሩ ሊያደርግ ይችላል። በመጠን መካከለኛ ጥያቄዎች ላላችሁ ደግሞ የ vLLM የማህደረ ትውስታ አደረጃጀት ያሸንፋል። እርሻውን ከመወራረድዎ በፊት ትክክለኛውን ጥያቄ መጠን ይለኩ።
Q3: SGL ከ vLLM ጋር እንዴት በትክክል ማመሳከር አለብኝ?
እውነተኛ የጥያቄ ስርጭትዎን ይጠቀሙ እንጂ የአሻንጉሊት አይነት አይደለም። የ p95/p99 የመጀመሪያ-ቶከን ጊዜን፣ አጠቃላይ የውጤት መጠንን እና በሰዓታት ውስጥ ያለውን መረጋጋት ይለኩ። ሞዴሉን፣ የውሂብ አይነትን፣ ጂፒዩን፣ የቡድን መጠንን እና ተጓዳኝነትን ይግለጹ—ወይም ግራፎችን ብቻ እያሳመራችሁ ነው።
Q4: ሁለቱንም SGL እና vLLM በተመሳሳይ ቁልል ውስጥ ማስኬድ እችላለሁ?
አዎ፣ እና የስራ ጫናዎችዎ የሚለያዩ ከሆነ ምናልባት ማድረግ ይኖርብዎታል። በይነተገናኝ የመጨረሻ ነጥቦችን ወደ SGL እና የቡድን ወይም ከፍተኛ መጠን ያለው ውይይት ወደ vLLM ያዙሩ። መለዋወጥ ቅዳሜና እሁድዎን እንዳያበላሸው ተንቀሳቃሽ የደንበኛ ንብርብር ያስቀምጡ።
Q5: vLLM ከ SGL ጋር ሲነጻጸር መቼ ነው አነስተኛ አፈጻጸም የሚያሳየው?
የመጀመሪያው የቶከን መዘግየት በሚያስፈልግበት እና ረጅም ጥያቄዎች አጫጭር የሆኑትን በሚያግዱበት አነስተኛና በተደባለቀ የስራ ጫናዎች ውስጥ ነው። የ SGL ቅድመ-ምትና መርሐግብር እነዚህን ጅራቶች ሊያለሰልሱ ይችላሉ። ትራፊክዎ ተመሳሳይ ከሆነ የ vLLM ቋሚ-ሁኔታ ብዙ ጊዜ ያሸንፋል።