How do I install and set up TensorRT-LLM the right way?

Use a container with matching CUDA/TensorRT or follow the official quick start and support matrix to avoid version drift. Verify GPU drivers and build tools before compiling engines.

How to use TensorRT-LLM with Hugging Face models?

Download the model and tokenizer, confirm support, and convert as needed before building the engine. If serving with TGI, compile engines for your GPU and point the backend to the engine directory.

Should I choose FP16, FP8, or INT8 for TensorRT-LLM?

Start with FP16 for stability, then try FP8/INT8 to increase throughput. Always validate task accuracy after quantization.

Can I serve TensorRT-LLM over HTTP?

Yes. You can use Python/C++ directly or serve via Hugging Face TGI’s TRT-LLM backend for scalable, production-ready APIs with streaming.

What are common performance bottlenecks when using TensorRT-LLM?

Tokenizer overhead, suboptimal batching, and lack of paged KV cache are common issues. Tune batch sizes, enable CUDA graphs, and monitor TTFT versus overall tokens-per-second.

TensorRT-LLM کو کیسے استعمال کریں: ایک مکمل عملی رہنمائی

تعارف: TensorRT-LLM آپ کے ویک اینڈ کی تعمیر کے لیے کیوں قابل ہے اگر آپ نے کبھی کسی GPU کو 60% استعمال پر بیٹھے ہوئے دیکھا ہے جبکہ آپ کا LLM رینگ رہا ہے، تو آپ جانتے ہیں کہ ٹیبل پر مفت کارکردگی باقی ہے۔ TensorRT-LLM اس ہیڈ روم کو تھرو پٹ میں تبدیل کرتا ہے: فیوزڈ کرنلز، پیجڈ اٹینشن، کوانٹائزیشن، اور گراف لیول آپٹیمائزیشن جو لیٹنسی کو کم کرتے ہیں اور ٹوکنز فی سیکنڈ کو بڑھاتے ہیں۔ اس how-to گائیڈ میں، ہم شروع سے آخر تک جائیں گے—انسٹال سے انجن کی تعمیر تک سرونگ تک—تاکہ آپ اعتماد کے ساتھ NVIDIA GPUs پر تیز، سستی انفرنس تعینات کر سکیں۔

یہ ٹیوٹوریل ایک عملی اور حل پر مبنی انداز میں لکھا گیا ہے۔ ہم سوالات پر مبنی ڈھانچہ استعمال کریں گے جس میں کاپی ایبل کمانڈز، عام نقصانات، اور FP16 بمقابلہ INT8، بیچنگ، اور KV کیشے حکمت عملیوں کے لیے فیصلے کے نکات شامل ہوں گے۔ ہم جہاں مناسب ہو وہاں مزید گہرائی میں جانے کے لیے آفیشل وسائل کا بھی حوالہ دیں گے,,.

آپ کیا سیکھیں گے

TensorRT-LLM کے لیے ماحول کیسے ترتیب دیا جائے۔

انجن کی تعمیر کے لیے ایک ماڈل (Hugging Face یا چیک پوائنٹس سے) کیسے تیار کیا جائے۔

FP16/INT8 انجن کیسے بنائیں اور کارکردگی کو کیسے بہتر کریں۔

Python/C++ اور HTTP سرونگ کے ذریعے انفرنس کیسے چلائیں۔

بینچ مارک، بیچ، اور ڈیبگ کیسے کریں۔

یہ کس کے لیے ہے

ML انجینئرز NVIDIA GPUs پر LLMs تعینات کر رہے ہیں۔

عملی پیشہ ور افراد جو پیداوار میں لاگت/لیٹنسی کو بہتر بنا رہے ہیں۔

بلڈرز جو PyTorch Transformers سے انتہائی بہتر انفرنس کی طرف جا رہے ہیں۔

TensorRT-LLM کیا ہے اور آپ کو اسے کب استعمال کرنا چاہیے؟ TensorRT-LLM ایک انفرنس اسٹیک ہے جو ٹرانسفارمر ماڈلز کو انتہائی بہتر GPU “انجنز” میں مرتب کرتا ہے۔ خام PyTorch یا عام رن ٹائمز کے مقابلے میں، آپ کو عام طور پر ملتا ہے:

فی ٹوکن کم لیٹنسی

بڑے بیچ سائز پر زیادہ تھرو پٹ

پیجڈ KV کیشے اور کوانٹائزیشن کے ساتھ بہتر میموری کی کارکردگی اسے اس وقت استعمال کریں جب آپ NVIDIA GPUs پر چل رہے ہوں اور پروڈکشن گریڈ کی کارکردگی کا خیال رکھتے ہوں۔ یہ خاص طور پر ڈیکوڈر اونلی LLMs (مثال کے طور پر، Llama, Mistral, Phi, BLOOM) اور چیٹ بوٹس، RAG، اور ہائی QPS API سروسز جیسے منظرناموں کے لیے قیمتی ہے۔

پیشگی شرائط اور ماحول کی ترتیب بنیادی ضروریات

حالیہ کمپیوٹ صلاحیت کے ساتھ NVIDIA GPU (مثال کے طور پر، Ampere, Ada, Hopper)

مطابق CUDA اور TensorRT ورژن، اس کے علاوہ مناسب ڈرائیورز

Python 3.8+ اور بلڈ ٹولز اگر سورس سے مرتب کر رہے ہیں۔

ورژننگ نوٹ: انسٹال کرنے سے پہلے ہمیشہ ہم آہنگ CUDA/TensorRT ورژن اور خصوصیات کے لیے آفیشل TensorRT سپورٹ میٹرکس اور ریلیز نوٹس چیک کریں,,.

کوئیک سٹارٹ آپشنز

کنٹینرائزڈ: پہلے سے انسٹال شدہ CUDA/TensorRT کے ساتھ NVIDIA کے کنٹینرز استعمال کریں—ورژن کی غلطیوں سے بچنے کا تیز ترین طریقہ۔

نیٹِو انسٹال: بیس TensorRT کے لیے آفیشل کوئیک سٹارٹ پر عمل کریں، پھر TensorRT-LLM کو اس کے اوپر لیئر کریں,,.

اپنے ماڈل کو تیار کرنا (Hugging Face → TensorRT-LLM) عام ذرائع

Hugging Face: Llama/Mistral/BLOOM قسمیں

مقامی چیک پوائنٹس: حسب ضرورت فائن ٹیونز

تیاری کی چیک لسٹ

تصدیق کریں کہ ماڈل آرکیٹیکچر TensorRT-LLM کے ذریعہ تائید شدہ ہے۔

ماڈل ویٹس اور ٹوکنائزر ڈاؤن لوڈ کریں۔

اگر ضرورت ہو تو، سیفٹینسرز کو متوقع فارمیٹس میں تبدیل کریں یا پروجیکٹ کے اسکرپٹس کے ذریعے ONNX میں ایکسپورٹ کریں۔

ٹپ: آفیشل کوئیک سٹارٹ میں اکثر ماڈلز کو حاصل کرنے اور صحیح انٹرمیڈیٹ فارم میں تبدیل کرنے کے لیے اسکرپٹس شامل ہوتے ہیں۔ BLOOM مثال کے ساتھ ٹیوٹوریل طرز کے واک تھرو کے لیے، Hugging Face LLMs کو TensorRT-LLM میں تبدیل کرنے کے بارے میں Dell کی گائیڈ دیکھیں۔

TensorRT-LLM انجن بنانا (ورک فلو کا دل) تصورات جو آپ کو معلوم ہونے چاہئیں

انجن: مرتب شدہ، ہارڈ ویئر کے لیے بہتر کردہ آرٹفیکٹ جو آپ انفرنس کے لیے لوڈ کرتے ہیں۔

درستگی: مضبوط بیس لائن کے لیے FP16/BF16؛ اگر درستگی برقرار رہتی ہے تو زیادہ تھرو پٹ کے لیے INT8 یا FP8۔

KV کیشے: پیجڈ KV کیشے میموری فریگمنٹیشن کو کم کرتا ہے اور طویل سیاق و سباق کی کارکردگی کو بڑھاتا ہے۔

اعلی سطحی اقدامات

بلڈ کنفیگریشن کی وضاحت کریں: زیادہ سے زیادہ بیچ، سیکوئنس کی لمبائی، درستی، کوانٹائزیشن، اور GPU آرکیٹیکچر۔

اپنے ماڈل چیک پوائنٹس اور ٹوکنائزر کی طرف اشارہ کریں۔

اپنے ٹارگٹ GPU(s) کے لیے انجن مرتب کریں۔

حوالہ: آفیشل دستاویزات اور کنفیگز کے ساتھ انجن بنانا۔ اگر آپ Hugging Face Text Generation Inference (TGI) کے ذریعے خدمت کرنے کا ارادہ رکھتے ہیں، تو GPU آرچ اور کنفیگریشن کے لحاظ سے پہلے سے مرتب شدہ انجنوں پر TRT-LLM بیک اینڈ نوٹس دیکھیں۔

سٹارٹر فیصلہ ٹری

پہلی تعمیر: FP16، درمیانی زیادہ سے زیادہ سیکوئنس کی لمبائی (مثال کے طور پر، 4K–8K)، معتدل بیچ (مثال کے طور پر، 4–8)۔ درستگی کی توثیق کریں۔

اسکیلنگ اپ: پیجڈ KV کیشے کو فعال کریں۔ زیادہ سے زیادہ بیچ/بیم سائز میں اضافہ کریں۔ FP8 یا INT8 کے ساتھ تجربہ کریں۔

پیداوار: لیٹنسی/QPS SLOs کو پورا کرنے والی کنفیگز کو پن کریں؛ ہر منظر نامے کے لیے الگ انجن بنائیں (مختصر اشارے بمقابلہ طویل سیاق و سباق)۔

انفرنس چلانا: Python، C++، اور HTTP آپ کے پاس تین عام راستے ہیں:

Python: فوری پروٹوٹائپنگ، پائپ لائنز اور نوٹ بکس کے لیے مثالی۔

C++: زیادہ سے زیادہ کارکردگی، مقامی خدمات میں انضمام۔

HTTP سرونگ: اسکیل ایبل تعیناتی کے لیے TRT-LLM بیک اینڈ یا رن ٹائم کی سرونگ مثالوں کے ساتھ TGI استعمال کریں۔

Hugging Face TGI بیک اینڈ

اپنے عین GPU/درستگی سیٹ اپ کے لیے پہلے سے انجن مرتب کریں۔

TRT-LLM بیک اینڈ کے ساتھ TGI کو اسپن کریں اور اسے انجن dir کی طرف اشارہ کریں۔

/generate یا openai کے موافق راستوں کے ذریعے درخواستیں بھیجیں اور نقلوں کے ساتھ اسکیل کریں۔

کارکردگی ٹیوننگ جو واقعی سوئیاں ہلاتی ہے کہاں سے آغاز کریں

درستگی: FP16 آپ کی قابل اعتماد بیس لائن ہے۔ INT8/FP8 مزید لیٹنسی کو کم کر سکتا ہے، لیکن معیار کی توثیق کریں۔

بیچنگ: ڈائنامک بیچنگ اور درخواست کو یکجا کرنا ڈرامائی طور پر تھرو پٹ کو بڑھاتا ہے۔ دم لیٹنسی کی پیمائش کریں۔

پیجڈ KV کیشے: طویل اشارے اور اسٹریمنگ کے لیے ضروری ہے۔ میموری کے دباؤ کو کم کرتا ہے۔

زیادہ سے زیادہ لمبائی: زیادہ سے زیادہ سیکوئنس کی لمبائی انجن کے سائز کو بڑھاتی ہے اور گھڑی کو کم کر سکتی ہے۔ مقصد کے مطابق انجن بنائیں۔

عملی تجاویز

حقیقت پسندانہ اشاروں کے ساتھ بینچ مارک: پری فل بمقابلہ ڈی کوڈ مراحل کو الگ سے پیمائش کریں۔

ٹوکنائزر تھرو پٹ اہم ہے: اگر آپ کا فریم ورک اس کی حمایت کرتا ہے تو اسے GPU پر کریں۔

CUDA گراف/فیوزڈ کرنلز پر نظر رکھیں: وہ CPU اوور ہیڈ اور کرنل لانچ لیٹنسی کو کم کرتے ہیں۔

ملٹی GPU کے لیے: اپنے ماڈل سائز اور لیٹنسی کی ضروریات کے مطابق ٹینسر متوازی یا پائپ لائن متوازی کو ترجیح دیں۔

بینچ مارکنگ: جیت ثابت کریں چیک لسٹ

ٹارگٹ بیچ سائز پر ٹوکنز/سیکنڈ (تھرو پٹ)

ٹائم ٹو فرسٹ ٹوکن (TTFT) اور فی درخواست اینڈ ٹو اینڈ لیٹنسی

چوٹی QPS کے تحت GPU استعمال اور میموری ہیڈ روم

درستگی: BLEU/perplexity یا ٹاسک کے لحاظ سے مخصوص evals اگر آپ مقدار بندی کرتے ہیں۔

درستگی اور ڈیلٹاس کی توثیق کرنے کے لیے بیس لائنز (PyTorch بمقابلہ TensorRT-LLM) میں مستقل بیج اور پرامپٹ سیٹ استعمال کریں۔

ڈیبگنگ اور عام نقصانات

غلط ورژن: آفیشل سپورٹ میٹرکس کے مطابق CUDA، ڈرائیورز اور TensorRT ورژن کو سیدھ میں کریں۔

آلے کے لیے انجن غلط ہے: خاص طور پر اپنے GPU آرکیٹیکچر کے لیے انجنوں کو دوبارہ بنائیں۔

تعمیر کے دوران OOM: زیادہ سے زیادہ سیکوئنس کی لمبائی یا بیچ کو کم کریں۔ پیجڈ KV کو فعال کریں۔ کوانٹائزیشن پر غور کریں۔

INT8 کے ساتھ درستگی میں کمی: ڈومین کی نمائندگی کرنے والے ڈیٹا پر کیلیبریٹ کریں۔ فی ٹینسر کوانٹائزیشن آزمائیں اور پرت وار حساسیت کی تصدیق کریں۔

اعلی تھرو پٹ کے باوجود سست TTFT: پیجڈ KV کیشے کو ٹیون کریں، CUDA گراف کو فعال کریں، اور ٹوکنائزر کی رکاوٹوں کی جانچ کریں۔

مثال کے طور پر ورک فلو: Hugging Face ماڈل سے پیداوار تک منظر نامہ: آپ A100 پر کم لیٹنسی چیٹ ماڈل چاہتے ہیں۔

ماڈل منتخب کریں: 7B–13B Llama/Mistral قسم۔

تیار کریں: ویٹس اور ٹوکنائزر ڈاؤن لوڈ کریں۔ تصدیق کریں کہ آرکیٹیکچر تائید شدہ ہے۔

پہلا انجن: FP16، زیادہ سے زیادہ ان پٹ 4K، زیادہ سے زیادہ آؤٹ پٹ 1K، بیچ 4؛ پیجڈ KV آن۔

توثیق کریں: اپنے PyTorch بیس لائن کے ساتھ آؤٹ پٹ کا موازنہ کریں۔

بہتر بنائیں: INT8 یا FP8 آزمائیں۔ TTFT اور تھرو پٹ کی پیمائش کریں۔ سرور موڈ کے لیے بیچ میں اضافہ کریں۔

خدمت کریں: TGI TRT-LLM بیک اینڈ استعمال کریں۔ لوڈ بیلنسر کے پیچھے نقلوں کو اسکیل کریں۔ اسٹریمنگ شامل کریں۔

لاگت اور صلاحیت کی منصوبہ بندی

فی GPU تھرو پٹ: اپنے ہدف کے سیاق و سباق پر ٹوکنز/سیکنڈ کی پیمائش کریں۔ QPS کی صلاحیت کا حساب لگانے کے لیے اسے استعمال کریں۔

1M ٹوکنز فی قیمت: تیز ڈی کوڈنگ اور زیادہ بیچ کے استعمال کے ساتھ، TRT-LLM عام طور پر فی ٹوکن لاگت کو کم کرتا ہے۔

صحیح سائز کے انجن: ہیڈ روم کے ضیاع کو کم سے کم کرنے کے لیے مختصر فارم اور طویل فارم کے لیے الگ انجن بنائیں۔

گائیڈ کے اندر اکثر پوچھے جانے والے سوالات سوال: کیا مجھے ہر GPU قسم کے لیے انجن دوبارہ بنانے کی ضرورت ہے؟ جواب: ہاں۔ انجن ہارڈ ویئر کے لحاظ سے مخصوص ہیں۔ ہر اس GPU آرکیٹیکچر کے لیے بنائیں جس پر آپ تعینات کریں گے۔

سوال: INT8 معیار کو کتنا متاثر کرتا ہے؟ جواب: یہ ماڈل اور ٹاسک پر منحصر ہے۔ اچھے کیلیبریشن ڈیٹا کے ساتھ، بہت سے ماڈلز کافی رفتار بڑھانے کے ساتھ ساتھ تقریباً FP16 معیار کو برقرار رکھتے ہیں۔

سوال: کیا میں طویل سیاق و سباق (مثال کے طور پر، 32K) چلا سکتا ہوں؟ جواب: ہاں، لیکن میموری کی احتیاط سے منصوبہ بندی کریں۔ پیجڈ KV کیشے استعمال کریں اور بلاک سائز کو ٹیون کریں۔ نوٹ کریں کہ طویل سیاق و سباق انجن کے نقش اور ڈی کوڈ لاگت میں اضافہ کرتے ہیں۔

سوال: کیا TGI ضروری ہے؟ جواب: نہیں۔ آپ Python/C++ براہ راست چلا سکتے ہیں۔ آٹو اسکیلنگ اور لاگنگ کے ساتھ پروڈکشن گریڈ HTTP APIs کے لیے TGI آسان ہے۔

ورک فلو ایکسلریشن کے لیے قابل ذکر اگر آپ اکثر پرامپٹس پر دہراتے ہیں، انجنوں میں آؤٹ پٹ کا موازنہ کرتے ہیں، یا تجربات کو دستاویز کرتے ہیں، تو ایک ساتھ ساتھ AI اسسٹنٹ جو فوری کوششوں، کوڈ بلاک پر عمل درآمد، اور ویب سنیپٹس کی حمایت کرتا ہے، آپ کے لوپ کو تیز کر سکتا ہے۔ ویسے، Sider.AI انجینئرز کے لیے تیار کردہ ڈیسک ٹاپ کا تجربہ پیش کرتا ہے—جو بینچ مارکس حاصل کرنے، اشاروں کی جانچ کرنے، اور اپنے TensorRT-LLM پائپ لائن کو بہتر بناتے وقت اپنے نوٹ کو ترتیب دینے کے لیے کارآمد ہے۔

اگلے اقدامات کی چیک لسٹ

اپنے ماحول کی توثیق کرنے کے لیے آفیشل کوئیک سٹارٹ پڑھیں۔

سپورٹ میٹرکس میں CUDA/TensorRT مطابقت کی تصدیق کریں۔

انجن بنانے کی گائیڈ پر عمل کریں اور پہلے FP16 منتخب کریں۔

اگر TGI کے ذریعے خدمت کر رہے ہیں، تو پہلے سے انجن مرتب کریں اور TRT-LLM بیک اینڈ کو کنفیگر کریں۔

اختیاری طور پر، Hugging Face ماڈلز جیسے BLOOM کے لیے ایک ٹیوٹوریل طرز کے واک تھرو کا جائزہ لیں۔

کلیدی نکات

TensorRT-LLM آپ کے ٹرانسفارمر کو زیادہ سے زیادہ تھرو پٹ اور کم لیٹنسی کے لیے GPU-نیٹِو انجن میں مرتب کرتا ہے۔

FP16 سے شروع کریں، پیجڈ KV کیشے کو فعال کریں، اور پیمائش کریں۔ پھر مزید رفتار کے لیے INT8/FP8 کو دریافت کریں۔

انجن GPU- اور کنفیگ-مخصوص ہیں۔ تعیناتی کے ہدف کے مطابق بنائیں۔

پیداوار کے لیے، مضبوط سرونگ لیئر (مثال کے طور پر، TGI) کے ساتھ انجن جوڑیں اور TTFT، تھرو پٹ، اور معیار کی نگرانی کریں۔

اکثر پوچھے گئے سوالات

Q1:میں TensorRT-LLM کو صحیح طریقے سے کیسے انسٹال اور سیٹ اپ کروں؟ مطابق CUDA/TensorRT کے ساتھ کنٹینر استعمال کریں یا ورژن کے بہاؤ سے بچنے کے لیے آفیشل کوئیک سٹارٹ اور سپورٹ میٹرکس پر عمل کریں۔ انجنوں کو مرتب کرنے سے پہلے GPU ڈرائیورز اور بلڈ ٹولز کی تصدیق کریں۔

Q2:Hugging Face ماڈلز کے ساتھ TensorRT-LLM کو کیسے استعمال کریں؟ ماڈل اور ٹوکنائزر ڈاؤن لوڈ کریں، سپورٹ کی تصدیق کریں، اور انجن بنانے سے پہلے ضرورت کے مطابق تبدیل کریں۔ اگر TGI کے ساتھ خدمت کر رہے ہیں، تو اپنے GPU کے لیے انجن مرتب کریں اور بیک اینڈ کو انجن ڈائریکٹری کی طرف اشارہ کریں۔

Q3:مجھے TensorRT-LLM کے لیے FP16، FP8، یا INT8 کا انتخاب کرنا چاہیے؟ استحکام کے لیے FP16 سے شروع کریں، پھر تھرو پٹ بڑھانے کے لیے FP8/INT8 آزمائیں۔ کوانٹائزیشن کے بعد ہمیشہ ٹاسک کی درستگی کی توثیق کریں۔

Q4:کیا میں HTTP پر TensorRT-LLM کو خدمت کر سکتا ہوں؟ ہاں۔ آپ Python/C++ براہ راست استعمال کر سکتے ہیں یا اسکیل ایبل، پروڈکشن ریڈی APIs کے لیے اسٹریمنگ کے ساتھ Hugging Face TGI کے TRT-LLM بیک اینڈ کے ذریعے خدمت کر سکتے ہیں۔

Q5:TensorRT-LLM استعمال کرتے وقت کارکردگی کی عام رکاوٹیں کیا ہیں؟ ٹوکنائزر اوور ہیڈ، غیر مثالی بیچنگ، اور پیجڈ KV کیشے کی کمی عام مسائل ہیں۔ بیچ سائز کو ٹیون کریں، CUDA گراف کو فعال کریں، اور مجموعی ٹوکنز فی سیکنڈ کے مقابلے TTFT کی نگرانی کریں۔