How do I install and set up TensorRT-LLM the right way?

Use a container with matching CUDA/TensorRT or follow the official quick start and support matrix to avoid version drift. Verify GPU drivers and build tools before compiling engines.

How to use TensorRT-LLM with Hugging Face models?

Download the model and tokenizer, confirm support, and convert as needed before building the engine. If serving with TGI, compile engines for your GPU and point the backend to the engine directory.

Should I choose FP16, FP8, or INT8 for TensorRT-LLM?

Start with FP16 for stability, then try FP8/INT8 to increase throughput. Always validate task accuracy after quantization.

Can I serve TensorRT-LLM over HTTP?

Yes. You can use Python/C++ directly or serve via Hugging Face TGI’s TRT-LLM backend for scalable, production-ready APIs with streaming.

What are common performance bottlenecks when using TensorRT-LLM?

Tokenizer overhead, suboptimal batching, and lack of paged KV cache are common issues. Tune batch sizes, enable CUDA graphs, and monitor TTFT versus overall tokens-per-second.

كيفية استخدام TensorRT-LLM: دليل عملي كامل

مقدمة: لماذا يستحق TensorRT-LLM بناءه في عطلة نهاية الأسبوع إذا سبق لك أن شاهدت وحدة معالجة الرسومات (GPU) تعمل بنسبة 60٪ بينما يزحف نموذج LLM الخاص بك، فأنت تعلم أن هناك أداءً مجانيًا متبقيًا. يحول TensorRT-LLM تلك المساحة المتروكة إلى إنتاجية: نوى مدمجة، واهتمام مُصفّح، وتكميم، وتحسينات على مستوى الرسم البياني تدفع زمن الوصول إلى الأسفل والرموز في الثانية إلى الأعلى. في هذا الدليل الإرشادي، سننتقل من البداية إلى النهاية - من التثبيت إلى بناء المحرك إلى التقديم - حتى تتمكن من نشر استنتاجات أسرع وأرخص بثقة على وحدات معالجة الرسومات NVIDIA.

تمت كتابة هذا البرنامج التعليمي بأسلوب عملي وموجه نحو الحلول. سنستخدم بنية قائمة على الأسئلة مع أوامر قابلة للنسخ، ومزالق شائعة، ونقاط اتخاذ قرار لـ FP16 مقابل INT8، والتجميع، واستراتيجيات ذاكرة التخزين المؤقت KV. سنشير أيضًا إلى الموارد الرسمية لعمليات الغوص الأعمق عند الاقتضاء.

ما ستتعلمه

كيفية إعداد البيئة لـ TensorRT-LLM

كيفية إعداد نموذج (من Hugging Face أو نقاط التفتيش) لبناء المحرك

كيفية بناء محركات FP16/INT8 وضبط الأداء

كيفية تشغيل الاستنتاج عبر Python/C++ وتقديم HTTP

كيفية القياس والتجميع وتصحيح الأخطاء

لمن هذا؟

مهندسو ML الذين ينشرون نماذج LLM على وحدات معالجة الرسومات NVIDIA

الممارسون الذين يحسنون التكلفة/زمن الوصول في الإنتاج

البناة الذين ينتقلون من PyTorch Transformers إلى استنتاج مُحسَّن للغاية

ما هو TensorRT-LLM ومتى يجب عليك استخدامه؟ TensorRT-LLM عبارة عن مكدس استنتاج يقوم بتجميع نماذج Transformer في "محركات" GPU مُحسَّنة للغاية. بالمقارنة مع PyTorch الخام أو أوقات التشغيل العامة، تحصل عادةً على:

زمن وصول أقل لكل رمز

إنتاجية أعلى بأحجام دفعية كبيرة

كفاءة أفضل في الذاكرة مع ذاكرة التخزين المؤقت KV المُصفّحة والتكميم استخدمه عندما تعمل على وحدات معالجة الرسومات NVIDIA وتهتم بالأداء على مستوى الإنتاج. إنه ذو قيمة خاصة لنماذج LLM الخاصة بفك التشفير فقط (مثل Llama وMistral وPhi وBLOOM) وسيناريوهات مثل روبوتات الدردشة وRAG وخدمات API عالية QPS.

المتطلبات الأساسية وإعداد البيئة المتطلبات الأساسية

وحدة معالجة رسومات NVIDIA بقدرة حسابية حديثة (مثل Ampere وAda وHopper)

إصدارات CUDA و TensorRT متطابقة، بالإضافة إلى برامج التشغيل المناسبة

Python 3.8+ وأدوات البناء إذا تم التجميع من المصدر

ملاحظة حول تحديد الإصدار: تحقق دائمًا من مصفوفة دعم TensorRT الرسمية وملاحظات الإصدار للإصدارات والميزات المتوافقة مع CUDA/TensorRT قبل التثبيت.

خيارات البدء السريع

محتوى في حاوية: استخدم حاويات NVIDIA مع CUDA/TensorRT المثبتة مسبقًا - أسرع طريقة لتجنب حالات عدم تطابق الإصدارات.

تثبيت أصلي: اتبع البدء السريع الرسمي لـ TensorRT الأساسي، ثم ضع طبقة TensorRT-LLM فوقه.

تجهيز النموذج الخاص بك (Hugging Face → TensorRT-LLM) مصادر شائعة

Hugging Face: متغيرات Llama/Mistral/BLOOM

نقاط التفتيش المحلية: عمليات الضبط الدقيقة المخصصة

قائمة التحقق من الإعداد

تأكد من أن بنية النموذج مدعومة من TensorRT-LLM.

قم بتنزيل أوزان النموذج وأداة الترميز.

إذا لزم الأمر، قم بتحويل safetensors إلى التنسيقات المتوقعة أو التصدير إلى ONNX عبر نصوص المشروع.

نصيحة: غالبًا ما يتضمن البدء السريع الرسمي نصوصًا لجلب النماذج والتحويل إلى النموذج المتوسط الصحيح. للحصول على شرح تفصيلي بأسلوب البرنامج التعليمي مع مثال BLOOM، راجع دليل Dell حول تحويل نماذج Hugging Face LLM إلى TensorRT-LLM.

بناء محرك TensorRT-LLM (جوهر سير العمل) المفاهيم التي يجب أن تعرفها

المحرك: العنصر الذي تم تجميعه والمُحسّن للأجهزة والذي تقوم بتحميله للاستنتاج.

الدقة: FP16/BF16 لخط أساس قوي؛ INT8 أو FP8 لإنتاجية أعلى إذا تم الحفاظ على الدقة.

ذاكرة التخزين المؤقت KV: تعمل ذاكرة التخزين المؤقت KV المُصفّحة على تقليل تجزئة الذاكرة وتعزيز أداء السياق الطويل.

الخطوات عالية المستوى

حدد تكوين البناء: الحد الأقصى للدُفعة، وأطوال التسلسل، والدقة، والتكميم، وهندسة وحدة معالجة الرسومات.

أشر إلى نقاط تفتيش النموذج وأداة الترميز.

قم بتجميع المحرك لوحدة (وحدات) معالجة الرسومات المستهدفة.

مرجع: بناء المحركات بالوثائق والتكوينات الرسمية. إذا كنت تخطط للتقديم عبر Hugging Face Text Generation Inference (TGI)، فراجع ملاحظات الواجهة الخلفية TRT-LLM حول تجميع المحركات مسبقًا لكل معمارية وتكوين GPU.

شجرة قرارات البداية

البناء الأول: FP16، الحد الأقصى لطول التسلسل المتوسط (على سبيل المثال، 4K-8K)، الدُفعة المعتدلة (على سبيل المثال، 4-8). تحقق من الصحة.

التوسع: قم بتمكين ذاكرة التخزين المؤقت KV المُصفّحة. قم بزيادة الحد الأقصى لأحجام الدُفعة/الشعاع. قم بتجربة FP8 أو INT8.

الإنتاج: قم بتثبيت التكوينات التي تلبي اتفاقيات مستوى الخدمة (SLO) لزمن الوصول/QPS؛ قم بإنشاء محركات منفصلة لكل سيناريو (مطالبات قصيرة مقابل سياق طويل).

تشغيل الاستنتاج: Python وC++ وHTTP لديك ثلاثة مسارات شائعة:

Python: النماذج الأولية السريعة، مثالية لخطوط الأنابيب والمفكرات.

C++: أقصى أداء، تكامل في الخدمات الأصلية.

تقديم HTTP: استخدم TGI مع الواجهة الخلفية TRT-LLM أو أمثلة التقديم لوقت التشغيل للنشر القابل للتطوير.

الواجهة الخلفية Hugging Face TGI

قم بتجميع المحركات مسبقًا لإعداد GPU/الدقة المحدد.

قم بتشغيل TGI مع الواجهة الخلفية TRT-LLM ووجهها إلى دليل المحرك.

أرسل الطلبات عبر مسارات /generate أو المتوافقة مع openai وقم بتوسيع نطاقها مع النسخ المتماثلة.

ضبط الأداء الذي يحرك الإبرة بالفعل من أين تبدأ

الدقة: FP16 هي خط الأساس الموثوق به. يمكن لـ INT8/FP8 تقليل زمن الوصول بشكل أكبر، ولكن تحقق من الجودة.

التجميع: يزيد التجميع الديناميكي وتجميع الطلبات بشكل كبير من الإنتاجية؛ قياس زمن الوصول الذيل.

ذاكرة التخزين المؤقت KV المُصفّحة: ضرورية للمطالبات الطويلة والتدفق؛ يقلل من ضغط الذاكرة.

الحد الأقصى للأطوال: تزيد أطوال التسلسل القصوى الأكبر من حجم المحرك وقد تقلل من الساعة؛ بناء محركات مناسبة للغرض.

نصائح عملية

قم بالقياس باستخدام مطالبات واقعية: قم بقياس مراحل التعبئة المسبقة مقابل فك التشفير بشكل منفصل.

إنتاجية أداة الترميز مهمة: قم بذلك على وحدة معالجة الرسومات إذا كان إطار العمل الخاص بك يدعم ذلك.

راقب رسوم CUDA البيانية/النوى المدمجة: فهي تقلل من الحمل الزائد لوحدة المعالجة المركزية وزمن وصول تشغيل النواة.

بالنسبة لوحدات معالجة الرسومات المتعددة: تفضل التوازي الموتري أو التوازي الخطي وفقًا لحجم النموذج ومتطلبات زمن الوصول.

القياس: إثبات الفوز قائمة التحقق

الرموز/ثانية (الإنتاجية) بأحجام الدُفعات المستهدفة

الوقت المستغرق للوصول إلى الرمز الأول (TTFT) وزمن الوصول الشامل لكل طلب

استخدام وحدة معالجة الرسومات والمساحة المتروكة للذاكرة تحت ذروة QPS

الدقة: تقييمات BLEU/الذهول أو التقييمات الخاصة بالمهمة إذا قمت بالقياس

استخدم البذور المتسقة ومجموعات المطالبات عبر خطوط الأساس (PyTorch مقابل TensorRT-LLM) للتحقق من الصحة والفروق.

تصحيح الأخطاء والمزالق الشائعة

إصدارات غير متطابقة: قم بمواءمة إصدارات CUDA وبرامج التشغيل و TensorRT وفقًا لمصفوفة الدعم الرسمية.

المحرك غير صالح للجهاز: أعد بناء المحركات خصيصًا لهندسة وحدة معالجة الرسومات الخاصة بك.

OOM أثناء البناء: قم بتقليل الحد الأقصى لطول التسلسل أو الدُفعة؛ قم بتمكين KV المُصفّحة؛ ضع في اعتبارك القياس.

انخفاض الدقة مع INT8: قم بالمعايرة على بيانات تمثيلية للمجال؛ جرب القياس لكل موتر وتحقق من حساسية الطبقة.

TTFT بطيء على الرغم من الإنتاجية العالية: اضبط ذاكرة التخزين المؤقت KV المُصفّحة، وقم بتمكين رسوم CUDA البيانية، وتحقق من اختناقات أداة الترميز.

مثال على سير العمل: من نموذج Hugging Face إلى الإنتاج السيناريو: أنت تريد نموذج دردشة بزمن وصول منخفض على A100.

اختر النموذج: متغير Llama/Mistral 7B-13B.

التحضير: قم بتنزيل الأوزان وأداة الترميز؛ تحقق من دعم البنية.

المحرك الأول: FP16، الحد الأقصى للإدخال 4K، الحد الأقصى للإخراج 1K، الدُفعة 4؛ KV المُصفّحة قيد التشغيل.

التحقق: قارن المخرجات بخط الأساس PyTorch الخاص بك.

التحسين: جرب INT8 أو FP8؛ قم بقياس TTFT والإنتاجية. قم بزيادة الدُفعة لوضع الخادم.

التقديم: استخدم الواجهة الخلفية TGI TRT-LLM؛ قم بتوسيع نطاق النسخ المتماثلة خلف موازن التحميل؛ أضف التدفق.

تخطيط التكلفة والسعة

الإنتاجية لكل وحدة معالجة رسومات: قم بقياس الرموز/ثانية في السياق المستهدف. استخدم ذلك لحساب سعة QPS.

السعر لكل مليون رمز: مع فك التشفير الأسرع واستخدام الدُفعة الأعلى، عادةً ما يقلل TRT-LLM من التكلفة لكل رمز.

محركات ذات حجم مناسب: قم ببناء محركات منفصلة للنماذج القصيرة والطويلة لتقليل إهدار المساحة المتروكة.

الأسئلة الشائعة داخل الدليل س: هل أحتاج إلى إعادة بناء المحركات لكل نوع GPU؟ ج: نعم. المحركات خاصة بالأجهزة. قم بالبناء لكل بنية GPU ستقوم بالنشر عليها.

س: ما مدى تأثير INT8 على الجودة؟ ج: يعتمد ذلك على النموذج والمهمة. مع بيانات معايرة جيدة، تحتفظ العديد من النماذج بجودة قريبة من FP16 مع تقديم تسريع كبير.

س: هل يمكنني تشغيل سياقات طويلة (على سبيل المثال، 32K)؟ ج: نعم، ولكن خطط للذاكرة بعناية. استخدم ذاكرة التخزين المؤقت KV المُصفّحة واضبط أحجام الكتل؛ لاحظ أن السياقات الأطول تزيد من مساحة المحرك وتكلفة فك التشفير.

س: هل TGI مطلوب؟ ج: لا. يمكنك تشغيل Python/C++ مباشرة. TGI مناسب لواجهات برمجة تطبيقات HTTP على مستوى الإنتاج مع التقييم التلقائي والتسجيل.

جدير بالذكر لتسريع سير العمل إذا كنت تكرر المطالبات بشكل متكرر، أو تقارن المخرجات عبر المحركات، أو توثق التجارب، فيمكن لمساعد الذكاء الاصطناعي جنبًا إلى جنب الذي يدعم عمليات إعادة المحاولة السريعة وتنفيذ كتلة التعليمات البرمجية ومقتطفات الويب تسريع الحلقة. بالمناسبة، يقدم Sider.AI تجربة سطح مكتب مصممة للمهندسين - مفيدة لالتقاط المعايير واختبار المطالبات وتنظيم ملاحظاتك أثناء تحسين خط أنابيب TensorRT-LLM الخاص بك.

قائمة التحقق من الخطوات التالية

اقرأ البدء السريع الرسمي للتحقق من صحة بيئتك.

تأكد من توافق CUDA/TensorRT في مصفوفة الدعم.

اتبع دليل بناء المحرك واختر FP16 أولاً.

إذا كنت تقوم بالتقديم عبر TGI، فقم بتجميع المحركات مسبقًا وقم بتكوين الواجهة الخلفية TRT-LLM.

اختياريًا، راجع شرحًا تفصيليًا بأسلوب البرنامج التعليمي لنماذج Hugging Face مثل BLOOM.

الوجبات الرئيسية

يقوم TensorRT-LLM بتجميع Transformer الخاص بك في محرك أصلي لوحدة معالجة الرسومات لتحقيق أقصى إنتاجية وتقليل زمن الوصول.

ابدأ بـ FP16، وقم بتمكين ذاكرة التخزين المؤقت KV المُصفّحة، وقم بالقياس. ثم استكشف INT8/FP8 لمزيد من السرعة.

المحركات خاصة بوحدة معالجة الرسومات والتكوين؛ قم بالبناء لكل هدف نشر.

للإنتاج، قم بإقران المحركات بطبقة تقديم قوية (على سبيل المثال، TGI) وراقب TTFT والإنتاجية والجودة.

الأسئلة الشائعة

س1: كيف أقوم بتثبيت وإعداد TensorRT-LLM بالطريقة الصحيحة؟ استخدم حاوية مع CUDA/TensorRT متطابقة أو اتبع البدء السريع الرسمي ومصفوفة الدعم لتجنب انجراف الإصدار. تحقق من برامج تشغيل وحدة معالجة الرسومات وأدوات البناء قبل تجميع المحركات.

س2: كيفية استخدام TensorRT-LLM مع نماذج Hugging Face؟ قم بتنزيل النموذج وأداة الترميز، وتأكد من الدعم، وقم بالتحويل حسب الحاجة قبل بناء المحرك. إذا كنت تقوم بالتقديم باستخدام TGI، فقم بتجميع المحركات لوحدة معالجة الرسومات الخاصة بك ووجه الواجهة الخلفية إلى دليل المحرك.

س3: هل يجب علي اختيار FP16 أو FP8 أو INT8 لـ TensorRT-LLM؟ ابدأ بـ FP16 للاستقرار، ثم جرب FP8/INT8 لزيادة الإنتاجية. تحقق دائمًا من دقة المهمة بعد القياس.

س4: هل يمكنني تقديم TensorRT-LLM عبر HTTP؟ نعم. يمكنك استخدام Python/C++ مباشرة أو التقديم عبر الواجهة الخلفية TRT-LLM الخاصة بـ Hugging Face TGI لواجهات برمجة تطبيقات قابلة للتطوير وجاهزة للإنتاج مع التدفق.

س5: ما هي اختناقات الأداء الشائعة عند استخدام TensorRT-LLM؟ الحمل الزائد لأداة الترميز والتجميع الأمثل ونقص ذاكرة التخزين المؤقت KV المُصفّحة هي مشكلات شائعة. اضبط أحجام الدُفعة، وقم بتمكين رسوم CUDA البيانية، وراقب TTFT مقابل الرموز في الثانية الإجمالية.