ایک رفتار کی دوڑ جسے آپ واقعی جیت سکتے ہیں۔
آپ کو فوری AI فیچرز فراہم کرنے کے لیے کسی بڑے بجٹ کی ضرورت نہیں ہے۔ اگر آپ نے {GPT-NeoX} کو تعینات کرنے کی کوشش کی ہے اور آپ کو تاخیر کا سامنا کرنا پڑا ہے، تو آپ اکیلے نہیں ہیں: {20B}-پیرامیٹر کلاس ماڈلز عام {GPUs} پر بھاری اور {CPUs} پر سست محسوس ہو سکتے ہیں۔ اچھی خبر یہ ہے کہ: کم وزن والے، اوپن سورس AI ماڈلز کی ایک نئی لہر مسابقتی معیار کے ساتھ تیز تر جوابات فراہم کر سکتی ہے—خاص طور پر چیٹ، ایجنٹس، بازیافت-اضافہ شدہ جنریشن ({RAG})، اور کوڈنگ کوپائلٹس کے لیے۔
یہ گائیڈ پانچ اوپن سورس AI ماڈلز کو نمایاں کرتی ہے جو حقیقی دنیا کے منظرناموں میں {GPT-NeoX} سے زیادہ تیز ہیں، بتاتی ہے کہ وہ کیوں تیز ہیں، اور آپ کو دکھاتی ہے کہ ہر ایک کہاں چمکتا ہے۔ ہم عملی انتخاب پر توجہ مرکوز کریں گے: ٹوکنائزر کی کارکردگی، کوانٹائزیشن سپورٹ، {KV}-کیش کی کارکردگی، اور مضبوط انفرنس اسٹیکس ({vLLM}، {TensorRT-LLM}، {llama.cpp})۔
اسٹائل نوٹ: عملی اور براہ راست۔ ہم تیزی سے حرکت کریں گے، جیسے کہ ہم جن ماڈلز کی سفارش کرتے ہیں۔
"{GPT-NeoX} سے تیز تر" کیوں اہم ہے؟
- کم تاخیر: ذیلی سیکنڈ پہلا ٹوکن زیادہ فطری چیٹ اور بہتر {UX} کا مطلب ہے۔
- اعلی تھرو پٹ: ٹوکنز/سیکنڈ کو نچوڑ کر فی {GPU} زیادہ صارفین کو سروس فراہم کریں۔
- سستا انفرا: چھوٹے ماڈلز یا بہتر کرنلز کا مطلب ہے ایک ہی ٹریفک کے لیے کم {GPUs}۔
- ایج کے لیے بہتر فٹ: {4-bit} کوانٹائزیشن کے ساتھ {CPU/Metal} انفرنس قابل عمل ہے۔
{GPT-NeoX} اوپن لینگویج ماڈلنگ میں ایک سنگ میل رہا ہے، لیکن اس کا سائز (اکثر {20B} مختلف حالتیں) اور پرانے کرنلز مشکلات پیدا کر سکتے ہیں۔ آج کے کمپیکٹ آرکیٹیکچرز، گروپڈ-کیوری اٹینشن ({GQA})، سلائیڈنگ ونڈو اٹینشن، اور انتہائی آپٹیمائزڈ رن ٹائمز نئے آپشنز کی طرف میز کو جھکا دیتے ہیں۔
ہم نے "تیز تر" کا اندازہ کیسے لگایا؟
رفتار ایک نمبر نہیں ہے۔ ہم ان چیزوں پر توجہ مرکوز کرتے ہیں:
- ٹائم-ٹو-فرسٹ-ٹوکن ({TTFT}): سمجھی جانے والی جوابی کارروائی۔
- ٹوکنز فی سیکنڈ ({TPS}): مسلسل ڈی کوڈ کی رفتار۔
- میموری فوٹ پرنٹ اور کوانٹائزیشن: ایج اور کم-{VRAM} {GPUs} کے لیے {4-bit/8-bit} سپورٹ۔
- سروینگ اسٹیک: {vLLM}، {TensorRT-LLM}، {llama.cpp}، اور موثر {KV} کیش کے ساتھ مطابقت۔
سیکوینس کی لمبائی، بیچ سائز، {GPU} قسم ({A100} بمقابلہ کنزیومر {RTX})، اور کرنل کے انتخاب کے ساتھ آپ کا مائلیج مختلف ہوگا۔ پھر بھی، عام سیٹ اپس میں، درج ذیل ماڈلز معیار کے لحاظ سے بہت سے کاموں کے لیے {GPT-NeoX} سے زیادہ تیزی سے چلتے ہیں۔
ٹاپ 5 اوپن سورس AI ماڈلز جو {GPT-NeoX} سے زیادہ تیز ہیں
1) {Llama 3.1 8B Instruct} ({Meta})
- یہ کیوں تیز ہے: جدید اٹینشن (بمع {GQA})، موثر ٹوکنائزر، اور {vLLM}، {llama.cpp} ({GGUF})، اور {TensorRT-LLM} میں اعلیٰ درجے کی سپورٹ۔ {8B} فوٹ پرنٹ اسے ایک ہی {24GB GPU} پر تیز بناتا ہے۔ کوانٹائزڈ بلڈز کنزیومر {GPUs} اور یہاں تک کہ {CPUs} پر بھی چلتے ہیں۔
- یہ کہاں بہترین ہے: جنرل چیٹ، مختصر سے درمیانے سیاق و سباق کے ساتھ {RAG}، ہلکے وزن والے ایجنٹس، اور پروڈکٹ اسسٹنٹس۔ مضبوط ہدایات پر عمل کرنا۔
- حقیقی دنیا کا ایج: {M}-سیریز میک یا ایک معمولی {CPU} سرور پر {llama.cpp} کے ذریعے {4-bit GGUF} کے ساتھ، {Llama 3.1 8B} فوری انٹرایکٹو تاخیر فراہم کر سکتا ہے جہاں {GPT-NeoX} رینگتا ہے۔
- اس کے ساتھ جوڑا بنائیں: ملٹی-ٹیننٹ سروینگ کے لیے {vLLM}، یا ایج تعیناتیوں کے لیے {llama.cpp}۔
2) {Mistral 7B Instruct} ({Mistral AI})
- یہ کیوں تیز ہے: {7B} سائز، مضبوط ٹوکنائزر کارکردگی، اور مقبول رن ٹائمز میں اعلیٰ معیار کے کرنلز۔ {Mistral} کا آرکیٹیکچر اور تربیت ایک بہترین رفتار/کوالٹی پروفائل پیدا کرتی ہے۔
- یہ کہاں بہترین ہے: مختصر شکل کی استدلال، کوڈ اشارے، نالج اسسٹنٹس، اور کثیر لسانی مختصر جوابات۔ اکثر افادیت کے کاموں کے لیے اپنے سائز سے زیادہ پنچ مارتا ہے۔
- حقیقی دنیا کا ایج: {4-bit} میں {Mistral 7B} کنزیومر {RTX} کارڈز پر بہترین {TPS} حاصل کرتا ہے۔ {TTFT} اتنا کم ہے کہ چیٹ {UIs} فوری محسوس ہوں۔ یہ لاگت سے موثر پروڈکشن کے لیے ایک بہترین بیس لائن ہے۔
- اس کے ساتھ جوڑا بنائیں: اعلیٰ تھرو پٹ کے لیے {vLLM + PagedAttention}؛ موبائل/ایج کے لیے {llama.cpp}۔
3) {Phi-3 Mini 3.8B} ({Microsoft})
- یہ کیوں تیز ہے: چھوٹا لیکن طاقتور۔ {3.8B} پیرامیٹرز پر، {Phi-3 Mini} {CPUs} اور انٹیگریٹڈ {GPUs} پر جارحانہ کوانٹائزیشن کے ساتھ چیختا ہے، جبکہ اب بھی مربوط آؤٹ پٹ کو برقرار رکھتا ہے۔
- یہ کہاں بہترین ہے: ایمبیڈڈ ایجنٹس، آن-ڈیوائس سمری، آف لائن نوٹ اسسٹنٹس، اور کم-کمپیوٹ {RAG}۔ مثالی جب آپ کو خام صلاحیت پر تاخیر اور لاگت کو ترجیح دینی ہو۔
- حقیقی دنیا کا ایج: پہلے ٹوکن کی تاخیر عام ہارڈ ویئر پر فوری محسوس ہو سکتی ہے۔ آپ اکثر اسی طرح کے سیٹ اپس میں {GPT-NeoX} کے مقابلے میں {2–3x} تھرو پٹ دیکھیں گے۔
- اس کے ساتھ جوڑا بنائیں: ونڈوز کے لیے {ONNX Runtime / DirectML}، کراس پلیٹ فارم کے لیے {llama.cpp}۔
4) {Qwen2 7B Instruct} ({Alibaba})
- یہ کیوں تیز ہے: مضبوط کثیر لسانی سپورٹ اور اچھی طرح سے آپٹیمائزڈ انفرنس گراف کے ساتھ موثر آرکیٹیکچر۔ {vLLM} اور {TensorRT-LLM} میں مضبوط ٹولنگ۔
- یہ کہاں بہترین ہے: کثیر لسانی چیٹ، ویب ٹولز، فنکشن کالنگ، اور ای کامرس طرز کے نالج ٹاسکس۔ زبانوں میں رفتار اور درستگی کا بہترین توازن۔
- حقیقی دنیا کا ایج: {KV}-کیش آف لوڈنگ اور {4-bit} کوانٹائزیشن کے ساتھ، {Qwen2 7B} زیادہ تر ایپ فلو میں جوابی معیار کو برقرار رکھتے ہوئے {GPT-NeoX} کے مقابلے میں زیادہ بیچ تھرو پٹ کو برقرار رکھتا ہے۔
- اس کے ساتھ جوڑا بنائیں: {NVIDIA} اسٹیکس کے لیے {TensorRT-LLM}؛ ملٹی ماڈل سروینگ کے لیے {vLLM}۔
5) {TinyLlama 1.1B Chat} (کمیونٹی)
- یہ کیوں تیز ہے: یہ چھوٹا ہے—اور یہی نقطہ ہے۔ {1.1B} پیرامیٹرز اور بہترین {GGUF} سپورٹ کے ساتھ، {TinyLlama} عملی طور پر کسی بھی چیز پر چلتا ہے۔
- یہ کہاں بہترین ہے: الٹرا-کم-تاخیر ٹرگرز، درجہ بندی، ٹیمپلیٹڈ جوابات، اسٹریمنگ {UI} اشارے، اور ایجنٹ گراف میں واچ ڈاگ/کو-پائلٹ ٹاسکس۔
- حقیقی دنیا کا ایج: لیپ ٹاپ {CPUs} پر {Sub-100ms} جوابات عام ہیں۔ ہیویئر ماڈل کو کال کرنے سے پہلے روٹنگ، گارڈریلز، یا پری فلٹرز کے لیے بہترین۔
- اس کے ساتھ جوڑا بنائیں: فیدر ویٹ لوکل انفرنس کے لیے {llama.cpp}؛ درستگی کے لیے ایک ریرینکر + {RAG} کے ساتھ جوڑیں۔
قابل ذکر تذکرے جو آپ کے اسٹیک کے لیے موزوں ہو سکتے ہیں
- {Llama 3.1 70B Instruct}: {GPT-NeoX} سے چھوٹا نہیں ہے، لیکن اعلیٰ کرنلز اور آرکیٹیکچر کی بدولت، یہ اعلیٰ-آخر {GPUs} پر فی یونٹ صلاحیت کے لحاظ سے بہتر {TPS} فراہم کر سکتا ہے۔ اگر آپ کو مناسب رفتار کے ساتھ اعلیٰ معیار کی ضرورت ہے، تو یہ مجبور کرنے والا ہے۔
- {Mixtral 8x7B}: ایک {Mixture-of-Experts} ماڈل جس میں مضبوط معیار اور اچھا تھرو پٹ ہوتا ہے جب بیچ سائز کو ٹیون کیا جاتا ہے۔ ایکٹیویشن اسپارسٹی تاخیر میں مدد کر سکتی ہے، لیکن میموری بینڈوڈتھ کو احتیاط سے منظم کرنا چاہیے۔
- {Gemma 2 9B}: مضبوط انفرنس سپورٹ کے ساتھ اچھا کارکردگی/سائز توازن؛ {vLLM} کے تحت کافی تیز ہو سکتا ہے۔
ایک نظر میں فوری موازنہ
- کم سے کم ہارڈ ویئر پر تیز ترین پہلا ٹوکن: {Phi-3 Mini}، {TinyLlama}۔
- رفتار اور صلاحیت کا بہترین توازن: {Llama 3.1 8B}، {Mistral 7B}، {Qwen2 7B}۔
- پیمانے پر سروس کرنا سب سے آسان (ایکو سسٹم/ٹولنگ): {Llama 3.1}، {Mistral 7B}، {Qwen2 7B} بذریعہ {vLLM/TensorRT-LLM}۔
- کثیر لسانی کے لیے بہترین: {Qwen2 7B}۔
- ایج/آف لائن کے لیے بہترین: {Phi-3 Mini}، {TinyLlama}۔
تمام پانچ عام طور پر چیٹ-اسٹائل اور {RAG} استعمال کے لیے {GPT-NeoX} سے زیادہ تیز محسوس ہوتے ہیں، خاص طور پر جب کوانٹائزڈ اور جدید رن ٹائمز کے ذریعے سروس فراہم کی جاتی ہے۔
عملی تعیناتی ترکیبیں (کاپی کے لیے دوستانہ)
مثال: {vLLM} کے ساتھ تیز چیٹ {API} ({Llama 3.1 8B})
- ہارڈ ویئر: 1× {RTX 3090/4090} یا {A10/A100}
- {vLLM} کو ٹینسر پیرا للیزم کے ساتھ {1} پر سیٹ کر کے لانچ کریں، {PagedAttention} کو فعال کریں، اور {KV} کیش کو پہلے سے مختص کریں۔
- {FP16} یا {INT8} استعمال کریں۔ قابل قبول معیار کے نقصان کے ساتھ {4-bit} کے لیے {AWQ} یا {GPTQ} پر غور کریں۔
- سخت تاخیر کے لیے {max_new_tokens} کو قدامت پسند رکھیں ({256–512})۔
- بیچ-فرسٹ شیڈولنگ کو آن کریں۔ فوری طور پر اپنے {UI} پر ٹوکنز اسٹریم کریں۔
مثال: {macOS} پر ایج سمریزر ({Phi-3 Mini} بذریعہ {llama.cpp})
- {Q4_K_M} یا {Q5_K_M GGUF} پر کوانٹائز کریں۔
- فی پرفارمنس کور {4–8} تھریڈز استعمال کریں۔ تیز کیش ہٹس کے لیے کم سیاق و سباق ({1k–2k} ٹوکنز) سیٹ کریں۔
- {TTFT} کو کم سے کم رکھنے کے لیے آؤٹ پٹ اسٹریم کریں۔
مثال: کثیر لسانی اسسٹنٹ ({Qwen2 7B + TensorRT-LLM})
- {FP8} یا {INT8} کیلیبریشن کے ساتھ ایک انجن بنائیں۔
- طویل دستاویزات کے لیے {KV} کیش ری یوز اور سلائیڈنگ ونڈو اٹینشن کو فعال کریں۔
- جارحانہ انداز میں درخواستوں کو بیچ کریں۔ چوٹی {TPS} کے لیے قیاس آرائی پر مبنی ڈی کوڈنگ پر انحصار کریں۔
یہ ماڈلز {GPT-NeoX} سے کیوں آگے نکلتے ہیں؟
- پیرامیٹر کی کارکردگی: {3–8B} جدید آرکیٹیکچرز اب بہت سے عملی کاموں پر پرانے {20B} ماڈلز کا مقابلہ کرتے ہیں یا ان سے تجاوز کر جاتے ہیں۔
- آپٹیمائزڈ اٹینشن: {GQA} اور سلائیڈنگ ونڈوز کمپیوٹ اور میموری ٹریفک کو کم کرتے ہیں۔
- بہتر رن ٹائمز: {vLLM} کا {PagedAttention}، {TensorRT-LLM} فیوزڈ کرنلز، {llama.cpp CPU/Metal} آپٹیمائزیشنز۔
- کوانٹائزیشن-فرسٹ کلچر: کمیونٹی {GGUF}، {AWQ}، {GPTQ}، اور {bitsandbytes} {4–8 bit} کو معمول بناتے ہیں۔
سادہ الفاظ میں: ایکو سسٹم آگے بڑھ گیا۔ {GPT-NeoX} تحقیق اور تاریخی بیس لائنز کے لیے قیمتی ہے، لیکن پروڈکٹ تاخیر کے لیے ہلکے ماڈلز جیتتے ہیں۔
استعمال کے معاملات اور ماڈل فٹ
- نالج بیسز کے لیے {RAG} چیٹ بوٹس: {Llama 3.1 8B} یا {Mistral 7B + reranker}؛ بازیافت کے بعد موازنہ معیار کے ساتھ {GPT-NeoX} کے مقابلے میں معنی خیز رفتار کی توقع کریں۔
- کسٹمر سپورٹ ڈیفلیکشن: کثیر لسانی {FAQs} کے لیے {Qwen2 7B}؛ بیک وقت استعمال کے لیے کوانٹائز کریں، ٹیمپلیٹس کے ذریعے جوابات کو کرسپ رکھیں۔
- آن-ڈیوائس کوپائلٹس: نوٹ، ای میل ڈرافٹس، اور چیک لسٹ جنریشن کے لیے {Phi-3 Mini}؛ مقامی سیمنٹک سرچ کے لیے ایک چھوٹے ایمبیڈنگ ماڈل کے ساتھ جوڑیں۔
- ایجنٹ گراف: ایک روٹر، درجہ بندی ہیڈ، یا گارڈریل کے طور پر {TinyLlama}؛ صرف اس صورت میں ہیویئر ماڈل کو کال کریں جب اعتماد کم ہو۔
مزید رفتار کے لیے ٹیوننگ
- سیاق و سباق کی لمبائی کو محدود کریں: طویل اشارے کمپیوٹ کو پھاڑ دیتے ہیں۔ ونڈوز کو چھوٹا رکھنے کے لیے {RAG} استعمال کریں۔
- قیاس آرائی پر مبنی ڈی کوڈنگ: ڈی کوڈنگ کو تیز کرنے کے لیے ایک چھوٹے ڈرافٹ ماڈل ({TinyLlama/Phi-3}) کو ایک بڑے ہدف ({Mistral/Llama 3.1}) کے ساتھ جوڑیں۔
- {KV} کیش حفظان صحت: ملٹی-ٹرن چیٹ کے لیے کیشز کو دوبارہ استعمال کریں۔ جہاں ممکن ہو میموری کو پن کریں۔
- ٹوکنائزر ڈسپلن: مختصر اشاروں کو ترجیح دیں۔ سسٹم اشارے اہم ہیں—انہیں مختصر رکھیں۔
- ہوشیاری سے کوانٹائز کریں: ایج کے لیے {4-bit}؛ معیار کو محفوظ رکھنے والے بمپ کے لیے {8-bit}۔ {AWQ} بمقابلہ {GPTQ} کی جانچ کریں۔
- احتیاط سے بیچ کریں: بڑے بیچ تھرو پٹ کو بڑھاتے ہیں لیکن {TTFT} کو نقصان پہنچا سکتے ہیں۔ {SLA} کے ذریعے ٹریفک کو تقسیم کریں۔
معیار بمقابلہ رفتار کے بارے میں کیا خیال ہے؟
کوئی ایک میٹرک نہیں جیتتا ہے۔ اگر آپ کی ایپ کو طویل شکل کی استدلال کی ضرورت ہے، تو ایک بڑا ماڈل اب بھی جائز ہو سکتا ہے۔ لیکن زیادہ تر انٹرایکٹو کاموں—چیٹ، مختصر خلاصے، ساختہ آؤٹ پٹس—کے لیے پانچ نمایاں ماڈلز {GPT-NeoX} کے مقابلے میں بہتر رفتار-سے-افادیت تناسب فراہم کرتے ہیں۔ ایک ٹاسک پر مرکوز ایویلیویشن سیٹ چلائیں، تاخیر اور درستگی دونوں کی پیمائش کریں، اور تجرباتی طور پر فیصلہ کریں۔
ویسے: {Sider.AI} کے ساتھ تیز تر ورک فلو بنانا
اگر آپ متعدد اوپن سورس ماڈلز کو ترتیب دے رہے ہیں، تو یہ بات قابل غور ہے کہ {Sider.AI} تجربات اور تعیناتی کو ہموار کر سکتا ہے۔ آپ مختلف ماڈلز ({e.g., Llama 3.1 8B} بمقابلہ {Mistral 7B}) کو تیزی سے {A/B} کر سکتے ہیں، تاخیر اور ٹوکن کے اعدادوشمار کو لاگ کر سکتے ہیں، اور گلو کوڈ کے ساتھ جدوجہد کیے بغیر {RAG} یا فنکشن کالنگ میں وائر کر سکتے ہیں۔ ٹیموں کے لیے جو اسسٹنٹس یا داخلی کوپائلٹس فراہم کر رہی ہیں، یہ پروٹو ٹائپ سے لے کر پروڈکشن تک کے وقت کو کم کرتا ہے جبکہ اخراجات اور تاخیر کو قابو میں رکھتا ہے۔ اہم نکات
- {Llama 3.1 8B}، {Mistral 7B}، اور {Qwen2 7B} جیسے جدید {3–8B} ماڈلز عام طور پر {GPT-NeoX} سے زیادہ تیز محسوس ہوتے ہیں، خاص طور پر {vLLM} یا {TensorRT-LLM} کے تحت۔
- انتہائی چھوٹے آپشنز ({Phi-3 Mini}، {TinyLlama}) ایج اور {CPU}-فرسٹ تعیناتیوں کو فوری جوابات کے ساتھ کھولتے ہیں۔
- کوانٹائزیشن، {KV} کیش ٹیوننگ، اور مختصر اشارے ماڈل کے انتخاب کی طرح اہم ہیں۔
- کام اور تاخیر کے بجٹ کے لحاظ سے ماڈلز کا انتخاب کریں، پھر اپنی خود کی ایویلیویشنز کے ساتھ تصدیق کریں۔
اب کیا کرنا ہے
- اپنی ڈیفالٹ تیز بیس لائن کے طور پر {Mistral 7B} یا {Llama 3.1 8B} سے شروعات کریں۔
- تیزی کے لیے ایک قیاس آرائی پر مبنی ڈرافٹ/روٹر کے طور پر {Phi-3 Mini} یا {TinyLlama} شامل کریں۔
- اسٹریمنگ کے ساتھ {vLLM} کھڑا کریں۔ حقیقت پسندانہ بوجھ کے تحت {TTFT} اور {TPS} کی پیمائش کریں۔
- ماڈل کو پھیلائے بغیر اشارے کے سائز کو کم کرنے اور درستگی کو بہتر بنانے کے لیے {RAG} لیئر کریں۔
- ماڈلز میں تجربات کو ترتیب دینے اور کارکردگی کی نگرانی کے لیے {Sider.AI} پر غور کریں۔
عمومی سوالات
سوال 1: چیٹ ایپس کے لیے {GPT-NeoX} سے زیادہ تیز کون سے اوپن سورس ماڈلز ہیں؟
{Llama 3.1 8B}، {Mistral 7B}، {Qwen2 7B}، {Phi-3 Mini}، اور {TinyLlama} عام طور پر {GPT-NeoX} کے مقابلے میں کم تاخیر فراہم کرتے ہیں، خاص طور پر {vLLM} یا {llama.cpp} اور {4–8 bit} کوانٹائزیشن کے ساتھ۔
سوال 2: کیا کنزیومر {GPUs} پر {Mistral 7B} {GPT-NeoX} سے زیادہ تیز ہے؟
جی ہاں۔ {Mistral 7B} کا چھوٹا سائز اور آپٹیمائزڈ کرنلز عام طور پر {GPT-NeoX} کے مقابلے میں {RTX}-کلاس {GPUs} پر فی سیکنڈ بہتر ٹوکنز اور کم ٹائم-ٹو-فرسٹ-ٹوکن پیدا کرتے ہیں۔
سوال 3: کیا میں {CPU} یا میک پر {GPT-NeoX} کا تیز متبادل چلا سکتا ہوں؟
{Phi-3 Mini} اور {TinyLlama} {GGUF} کوانٹائزیشن کے ساتھ {llama.cpp} کے ذریعے {CPUs} اور ایپل سلیکون پر اچھی طرح چلتے ہیں، جو اسی ہارڈ ویئر پر {GPT-NeoX} کے مقابلے میں بہت تیز جوابات پیش کرتے ہیں۔
سوال 4: کثیر لسانی اسسٹنٹس کے لیے بہترین تیز ماڈل کون سا ہے؟
{Qwen2 7B Instruct} رفتار اور کثیر لسانی معیار کو متوازن کرتا ہے، جو اکثر زبانوں میں مضبوط درستگی کو برقرار رکھتے ہوئے تاخیر میں {GPT-NeoX} سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔
سوال 5: میں اوپن سورس ماڈلز کے ساتھ ذیلی سیکنڈ تاخیر کیسے حاصل کروں؟
ایک کمپیکٹ ماڈل ({3–8B}) استعمال کریں، {4–8 bit} کوانٹائزیشن کو فعال کریں، اشاروں کو مختصر رکھیں، اور {vLLM} یا {TensorRT-LLM} کے ساتھ سروس فراہم کریں۔ ایک چھوٹے ڈرافٹ ماڈل کے ساتھ قیاس آرائی پر مبنی ڈی کوڈنگ تاخیر کو مزید کم کر سکتی ہے۔