அறிமுகம்: ஏன் TensorRT-LLM உங்கள் வார இறுதி உருவாக்கத்திற்கு மதிப்புள்ளது
உங்கள் LLM ஊர்ந்து செல்லும்போது, உங்கள் GPU 60% பயன்பாட்டில் இருப்பதை நீங்கள் எப்போதாவது பார்த்திருந்தால், செயல்திறனில் இன்னும் கொஞ்சம் மிச்சம் இருக்கிறது என்று உங்களுக்குத் தெரியும். TensorRT-LLM அந்த இடவசதியைத் செயல்திறனாக மாற்றுகிறது: இணைக்கப்பட்ட கர்னல்கள், பக்க கவனச்சிதறல், குவாண்ட்டைசேஷன் மற்றும் வரைபட-நிலை மேம்படுத்தல்கள் தாமதத்தைக் குறைத்து, ஒரு நொடிக்கு டோக்கன்களை அதிகரிக்கிறது. இந்த வழிகாட்டி மூலம், நிறுவுதல் முதல் எஞ்சின் உருவாக்கம் மற்றும் சேவை வரை முழுமையாகப் பார்க்கப் போகிறோம் - எனவே NVIDIA GPUகளில் வேகமான, குறைந்த விலையிலான அனுமானத்தை நீங்கள் உறுதியாகப் பயன்படுத்தலாம்.
இந்த பயிற்சி ஒரு நடைமுறை மற்றும் தீர்வு சார்ந்த பாணியில் எழுதப்பட்டுள்ளது. நகலெடுக்கக்கூடிய கட்டளைகள், பொதுவான ஆபத்துகள் மற்றும் FP16 vs INT8, தொகுதி மற்றும் KV கேச் உத்திகளுக்கான முடிவு புள்ளிகளுடன் கேள்வி-தலைமையிலான கட்டமைப்பைப் பயன்படுத்துவோம். பொருத்தமான இடங்களில் ஆழமான பகுப்பாய்வுகளுக்கு அதிகாரப்பூர்வ ஆதாரங்களையும் நாங்கள் குறிப்பிடுவோம்.
நீங்கள் என்ன கற்றுக்கொள்வீர்கள்
- TensorRT-LLMக்கான சூழலை எவ்வாறு அமைப்பது
- எஞ்சின் உருவாக்கத்திற்கான ஒரு மாதிரியை (Hugging Face அல்லது செக்பாயிண்டுகளிலிருந்து) எவ்வாறு தயார் செய்வது
- FP16/INT8 எஞ்சின்களை உருவாக்கி செயல்திறனை எவ்வாறு மேம்படுத்துவது
- Python/C++ மற்றும் HTTP சேவை மூலம் அனுமானத்தை எவ்வாறு இயக்குவது
- பெஞ்ச்மார்க், தொகுதி மற்றும் பிழைகளை எவ்வாறு நீக்குவது
இது யாருக்கானது
- ML பொறியாளர்கள் NVIDIA GPUகளில் LLMகளை வெளியிடுகிறார்கள்
- தயாரிப்பில் செலவு/தாமதத்தை மேம்படுத்தும் பயிற்சியாளர்கள்
- PyTorch Transformers இலிருந்து மிகவும் மேம்படுத்தப்பட்ட அனுமானத்திற்கு மாறும் உருவாக்குநர்கள்
- TensorRT-LLM என்றால் என்ன, அதை எப்போது பயன்படுத்த வேண்டும்?
TensorRT-LLM என்பது Transformer மாடல்களை மிகவும் மேம்படுத்தப்பட்ட GPU “எஞ்சின்களாக” தொகுக்கும் அனுமான அடுக்கு. மூல PyTorch அல்லது பொதுவான ரன்டைம்களுடன் ஒப்பிடும்போது, நீங்கள் வழக்கமாக பெறுவது:
- ஒரு டோக்கனுக்கான குறைந்த தாமதம்
- பெரிய தொகுதி அளவுகளில் அதிக செயல்திறன்
- பக்க KV கேச் மற்றும் குவாண்ட்டைசேஷன் மூலம் சிறந்த நினைவக திறன்
நீங்கள் NVIDIA GPUகளில் இயங்கும்போதும், தயாரிப்பு-கிரேடு செயல்திறனைப் பற்றி கவலைப்படும்போதும் இதைப் பயன்படுத்தவும். இது டிகோடர்-மட்டும் LLMகளுக்கு (எ.கா., Llama, Mistral, Phi, BLOOM) மற்றும் சாட்போட்கள், RAG மற்றும் அதிக-QPS API சேவைகள் போன்ற சூழ்நிலைகளுக்கு குறிப்பாக மதிப்புமிக்கது.
- முன்தேவைகள் மற்றும் சுற்றுச்சூழல் அமைப்பு
முக்கிய தேவைகள்
- சமீபத்திய கம்ப்யூட் திறனுடன் கூடிய NVIDIA GPU (எ.கா., Ampere, Ada, Hopper)
- பொருத்தமான CUDA மற்றும் TensorRT பதிப்புகள், பிளஸ் பொருத்தமான டிரைவர்கள்
- Python 3.8+ மற்றும் மூலத்திலிருந்து தொகுத்தால் உருவாக்க கருவிகள்
பதிப்பு குறிப்பு: நிறுவும் முன், இணக்கமான CUDA/TensorRT பதிப்புகள் மற்றும் அம்சங்களுக்கான அதிகாரப்பூர்வ TensorRT ஆதரவு மேட்ரிக்ஸ் மற்றும் வெளியீட்டு குறிப்புகளை எப்போதும் சரிபார்க்கவும்.
விரைவான தொடக்க விருப்பங்கள்
- கண்டெய்னரைஸ்: முன் நிறுவப்பட்ட CUDA/TensorRT உடன் NVIDIA இன் கண்டெய்னர்களைப் பயன்படுத்தவும் - பதிப்பு பொருந்தாததைத் தவிர்க்க விரைவான வழி.
- சொந்த நிறுவல்: அடிப்படை TensorRTக்கான அதிகாரப்பூர்வ விரைவான தொடக்கத்தைப் பின்பற்றவும், பின்னர் TensorRT-LLMஐ அதன் மேல் அடுக்கவும்.
- உங்கள் மாதிரியை தயார் செய்தல் (Hugging Face → TensorRT-LLM)
பொதுவான ஆதாரங்கள்
- Hugging Face: Llama/Mistral/BLOOM வகைகள்
- உள்ளூர் செக்பாயிண்டுகள்: தனிப்பயன் ஃபைன்-ட்யூன்கள்
தயாரிப்பு சரிபார்ப்பு பட்டியல்
- மாதிரிArchitecture TensorRT-LLM ஆல் ஆதரிக்கப்படுகிறதா என்பதை உறுதிப்படுத்தவும்.
- மாதிரி எடைகள் மற்றும் டோக்கனைசரைப் பதிவிறக்கவும்.
- தேவைப்பட்டால், பாதுகாப்பான டென்சர்களை எதிர்பார்க்கப்படும் வடிவங்களுக்கு மாற்றவும் அல்லது திட்டத்தின் ஸ்கிரிப்டுகள் மூலம் ONNXக்கு ஏற்றுமதி செய்யவும்.
உதவிக்குறிப்பு: அதிகாரப்பூர்வ விரைவான தொடக்கத்தில் பெரும்பாலும் மாதிரிகளைப் பெறுவதற்கும் சரியான இடைநிலை வடிவத்திற்கு மாற்றுவதற்கும் ஸ்கிரிப்டுகள் அடங்கும். BLOOM உதாரணத்துடன் ஒரு பயிற்சி-பாணி walkthroughக்கு, Hugging Face LLMகளை TensorRT-LLMக்கு மாற்றுவது குறித்த Dell இன் வழிகாட்டியைப் பார்க்கவும்.
- TensorRT-LLM எஞ்சினை உருவாக்குதல் (வேலைப்பாய்வின் இதயம்)
நீங்கள் தெரிந்து கொள்ள வேண்டிய கருத்துகள்
- எஞ்சின்: அனுமானத்திற்காக நீங்கள் ஏற்றும் தொகுக்கப்பட்ட, வன்பொருள்-மேம்படுத்தப்பட்ட கலைப்பொருள்.
- துல்லியம்: வலுவான அடிப்படைக்கான FP16/BF16; துல்லியம் இருந்தால் அதிக செயல்திறனுக்கான INT8 அல்லது FP8.
- KV கேச்: பக்க KV கேச் நினைவக துண்டு துண்டாகுதலைக் குறைக்கிறது மற்றும் நீண்ட சூழல் செயல்திறனை அதிகரிக்கிறது.
உயர்-நிலை படிகள்
- உருவாக்க உள்ளமைவை வரையறுக்கவும்: அதிகபட்ச தொகுதி, வரிசை நீளங்கள், துல்லியம், குவாண்ட்டைசேஷன் மற்றும் GPU Architecture.
- உங்கள் மாதிரி செக்பாயிண்டுகள் மற்றும் டோக்கனைசரை சுட்டிக்காட்டவும்.
- உங்கள் இலக்கு GPU(களில்)க்கான எஞ்சினைத் தொகுக்கவும்.
குறிப்பு: அதிகாரப்பூர்வ ஆவணங்கள் மற்றும் உள்ளமைவுகளுடன் எஞ்சின்களை உருவாக்குதல். Hugging Face Text Generation Inference (TGI) மூலம் சேவை செய்ய நீங்கள் திட்டமிட்டால், ஒவ்வொரு GPU Architecture மற்றும் உள்ளமைவிற்கும் முன்கூட்டியே தொகுக்கும் எஞ்சின்கள் குறித்த TRT-LLM பின்கடை குறிப்புகளைப் பார்க்கவும்.
தொடக்க முடிவு மரம்
- முதல் உருவாக்கம்: FP16, நடுத்தர அதிகபட்ச வரிசை நீளம் (எ.கா., 4K–8K), மிதமான தொகுதி (எ.கா., 4–8). சரியானதை உறுதிப்படுத்தவும்.
- அளவிடுதல்: பக்க KV கேச்சை இயக்கவும். அதிகபட்ச தொகுதி/பீம் அளவுகளை அதிகரிக்கவும். FP8 அல்லது INT8 உடன் பரிசோதனை செய்யுங்கள்.
- உற்பத்தி: தாமதம்/QPS SLOகளை பூர்த்தி செய்யும் உள்ளமைவுகளைப் பொருத்தவும்; ஒவ்வொரு சூழ்நிலைக்கும் தனி எஞ்சின்களை உருவாக்கவும் (குறுகிய தூண்டுதல்கள் vs நீண்ட சூழல்).
- அனுமானத்தை இயக்குதல்: Python, C++ மற்றும் HTTP
உங்களிடம் மூன்று பொதுவான பாதைகள் உள்ளன:
- Python: விரைவான முன்மாதிரி, குழாய்கள் மற்றும் நோட்புக்குகளுக்கு ஏற்றது.
- C++: அதிகபட்ச செயல்திறன், சொந்த சேவைகளில் ஒருங்கிணைப்பு.
- HTTP சேவை: அளவிடக்கூடிய பயன்பாட்டிற்காக TRT-LLM பின்கடை அல்லது ரன்டைமின் சேவை எடுத்துக்காட்டுகளுடன் TGI ஐப் பயன்படுத்தவும்.
Hugging Face TGI பின்கடை
- உங்கள் சரியான GPU/துல்லிய அமைப்புக்கான முன்கூட்டியே தொகுக்கப்பட்ட எஞ்சின்கள்.
- TRT-LLM பின்கடையுடன் TGI ஐ சுழற்றி, அதை எஞ்சின் டைரக்டரியில் சுட்டிக்காட்டவும்.
- /generate அல்லது openai-இணக்கமான வழிகள் மூலம் கோரிக்கைகளை அனுப்பவும் மற்றும் நகல்களுடன் அளவிடவும்.
- உண்மையில் ஊசியை நகர்த்தும் செயல்திறன் சரிசெய்தல்
எங்கிருந்து தொடங்குவது
- துல்லியம்: FP16 என்பது உங்கள் நம்பகமான அடிப்படை. INT8/FP8 தாமதத்தை மேலும் குறைக்கலாம், ஆனால் தரத்தை உறுதிப்படுத்தவும்.
- தொகுதி: மாறும் தொகுதி மற்றும் கோரிக்கை ஒருங்கிணைப்பு செயல்திறனை வியத்தகு முறையில் அதிகரிக்கிறது; வால் தாமதத்தை அளவிடவும்.
- பக்க KV கேச்: நீண்ட தூண்டுதல்கள் மற்றும் ஸ்ட்ரீமிங்கிற்கு அவசியம்; நினைவக அழுத்தத்தை குறைக்கிறது.
- அதிகபட்ச நீளங்கள்: பெரிய அதிகபட்ச வரிசை நீளங்கள் எஞ்சின் அளவை அதிகரிக்கும் மற்றும் கடிகாரத்தைக் குறைக்கலாம்; நோக்கத்திற்காக பொருத்தமான எஞ்சின்களை உருவாக்கவும்.
நடைமுறை உதவிக்குறிப்புகள்
- யதார்த்தமான தூண்டுதல்களுடன் பெஞ்ச்மார்க்: prefill vs decode கட்டங்களை தனித்தனியாக அளவிடவும்.
- டோக்கனைசர் செயல்திறன் முக்கியமானது: உங்கள் கட்டமைப்பு அதை ஆதரித்தால் GPU இல் செய்யுங்கள்.
- CUDA வரைபடங்கள்/இணைக்கப்பட்ட கர்னல்களைக் கண்காணிக்கவும்: அவை CPU மேல்நிலை மற்றும் கர்னல் வெளியீட்டு தாமதத்தைக் குறைக்கின்றன.
- மல்டி-GPUக்கு: உங்கள் மாதிரி அளவு மற்றும் தாமத தேவைகளுக்கு ஏற்ப டென்சர் இணை அல்லது பைப்லைன் இணையானதை விரும்பவும்.
- பெஞ்ச்மார்க்கிங்: வெற்றியை நிரூபிக்கவும்
சரிபார்ப்பு பட்டியல்
- இலக்கு தொகுதி அளவுகளில் டோக்கன்கள்/விநாடி (செயல்திறன்)
- முதல் டோக்கனுக்கான நேரம் (TTFT) மற்றும் ஒரு கோரிக்கைக்கான இறுதி முதல் இறுதி வரை தாமதம்
- உச்ச QPS இன் கீழ் GPU பயன்பாடு மற்றும் நினைவக இடவசதி
- துல்லியம்: நீங்கள் குவாண்ட்டைஸ் செய்தால் BLEU/சூழல் அல்லது பணி சார்ந்த மதிப்பீடுகள்
சரியான தன்மை மற்றும் டெல்டாக்களைச் சரிபார்க்க அடிப்படை முழுவதும் (PyTorch vs TensorRT-LLM) நிலையான விதைகள் மற்றும் தூண்டுதல் தொகுப்புகளைப் பயன்படுத்தவும்.
- பிழைதிருத்தம் மற்றும் பொதுவான ஆபத்துகள்
- பொருந்தாத பதிப்புகள்: அதிகாரப்பூர்வ ஆதரவு மேட்ரிக்ஸ் படி CUDA, டிரைவர்கள் மற்றும் TensorRT பதிப்புகளை சீரமைக்கவும்.
- சாதனத்திற்கு செல்லாத எஞ்சின்: உங்கள் GPU Architecture க்காக குறிப்பாக எஞ்சின்களை மீண்டும் உருவாக்கவும்.
- உருவாக்கத்தின் போது OOM: அதிகபட்ச வரிசை நீளம் அல்லது தொகுதியைக் குறைக்கவும்; பக்க KV ஐ இயக்கவும்; குவாண்ட்டைசேஷனைக் கவனியுங்கள்.
- INT8 உடன் துல்லியம் குறைதல்: டொமைன்-பிரதிநிதித்துவ தரவுகளில் அளவீடு செய்யவும்; டென்சருக்கு குவாண்ட்டைசேஷனை முயற்சிக்கவும் மற்றும் அடுக்கு வாரியான உணர்திறனை சரிபார்க்கவும்.
- அதிக செயல்திறன் இருந்தபோதிலும் மெதுவான TTFT: பக்க KV கேச்சை டியூன் செய்யவும், CUDA வரைபடங்களை இயக்கவும் மற்றும் டோக்கனைசர் கழுத்துக்களை சரிபார்க்கவும்.
- எடுத்துக்காட்டு வேலைப்பாய்வு: Hugging Face மாதிரியிலிருந்து உற்பத்திக்கு
காட்சி: உங்களுக்கு A100 இல் குறைந்த தாமத அரட்டை மாதிரி வேண்டும்.
- மாதிரியைத் தேர்வு செய்யவும்: 7B–13B Llama/Mistral மாறுபாடு.
- தயார் செய்யவும்: எடைகள் மற்றும் டோக்கனைசரைப் பதிவிறக்கவும்; Architecture ஆதரிக்கப்படுகிறதா என்பதை சரிபார்க்கவும்.
- முதல் எஞ்சின்: FP16, அதிகபட்ச உள்ளீடு 4K, அதிகபட்ச வெளியீடு 1K, தொகுதி 4; பக்கம் KV இயக்கத்தில் உள்ளது.
- சரிபார்க்கவும்: உங்கள் PyTorch அடிப்படையுடன் வெளியீடுகளை ஒப்பிடுக.
- மேம்படுத்தவும்: INT8 அல்லது FP8 ஐ முயற்சிக்கவும்; TTFT மற்றும் செயல்திறனை அளவிடவும். சேவையக முறைக்கு தொகுதியை அதிகரிக்கவும்.
- பரிமாறவும்: TGI TRT-LLM பின்கடையைப் பயன்படுத்தவும்; சுமை சமநிலைக்குப் பின்னால் நகல்களை அளவிடவும்; ஸ்ட்ரீமிங்கைச் சேர்க்கவும்.
- செலவு மற்றும் திறன் திட்டமிடல்
- GPU ஒன்றுக்கு செயல்திறன்: உங்கள் இலக்கு சூழலில் டோக்கன்களை/விநாடி அளவிடவும். QPS திறனை கணக்கிட அதைப் பயன்படுத்தவும்.
- 1M டோக்கன்களுக்கு விலை: வேகமான டிகோடிங் மற்றும் அதிக தொகுதி பயன்பாட்டுடன், TRT-LLM பொதுவாக டோக்கன் ஒன்றுக்கான செலவைக் குறைக்கிறது.
- சரியான அளவு எஞ்சின்கள்: குறுகிய-வடிவம் மற்றும் நீண்ட-வடிவத்திற்கான தனி எஞ்சின்களை உருவாக்கவும், இதனால் தலைகீழ் கழிவுகளைக் குறைக்கவும்.
- வழிகாட்டிக்குள் அடிக்கடி கேட்கப்படும் கேள்விகள்
கே: ஒவ்வொரு GPU வகைக்கும் எஞ்சின்களை மீண்டும் உருவாக்க வேண்டுமா?
ப: ஆம். எஞ்சின்கள் வன்பொருள் சார்ந்தவை. நீங்கள் பயன்படுத்தும் ஒவ்வொரு GPU Architecture க்கும் உருவாக்கவும்.
கே: INT8 தரம் எவ்வளவு பாதிக்கிறது?
ப: இது மாதிரி மற்றும் பணியைப் பொறுத்தது. நல்ல அளவீட்டு தரவுகளுடன், பல மாதிரிகள் கணிசமான வேகத்தை வழங்கும் போது FP16 தரத்திற்கு அருகில் தக்கவைத்துக்கொள்கின்றன.
கே: நான் நீண்ட சூழல்களை இயக்க முடியுமா (எ.கா., 32K)?
ப: ஆம், ஆனால் நினைவகத்தைத் திட்டமிடுங்கள். பக்க KV கேச்சைப் பயன்படுத்தவும் மற்றும் தொகுதி அளவுகளை டியூன் செய்யவும்; நீண்ட சூழல்கள் எஞ்சின் தடம் மற்றும் டிகோட் செலவை அதிகரிக்கும் என்பதை நினைவில் கொள்ளவும்.
கே: TGI தேவையா?
ப: இல்லை. நீங்கள் Python/C++ ஐ நேரடியாக இயக்கலாம். ஆட்டோஸ்கேலிங் மற்றும் லாக்கிங் கொண்ட தயாரிப்பு-கிரேடு HTTP APIகளுக்கு TGI வசதியானது.
வேலைப்பாய்வு முடுக்கத்திற்கு மதிப்புள்ள குறிப்பு
நீங்கள் அடிக்கடி தூண்டுதல்களை மீண்டும் செய்தால், எஞ்சின்கள் முழுவதும் வெளியீடுகளை ஒப்பிடுகிறீர்கள் அல்லது சோதனைகளை ஆவணப்படுத்தினால், விரைவான மறுமுயற்சிகள், குறியீடு தொகுதி இயக்கம் மற்றும் வலை துணுக்குகளை ஆதரிக்கும் ஒரு பக்க-பக்க AI உதவியாளர் உங்கள் சுழற்சியை விரைவுபடுத்தலாம். மூலம், Sider.AI பொறியாளர்களுக்காக வடிவமைக்கப்பட்ட டெஸ்க்டாப் அனுபவத்தை வழங்குகிறது - பெஞ்ச்மார்க்குகளைப் பிடிக்கவும், தூண்டுதல்களைச் சோதிக்கவும் மற்றும் உங்கள் TensorRT-LLM குழாயை மேம்படுத்தும் போது உங்கள் குறிப்புகளை ஒழுங்கமைக்கவும் இது உதவியாக இருக்கும். அடுத்த படிகள் சரிபார்ப்பு பட்டியல்
- உங்கள் சூழலைச் சரிபார்க்க அதிகாரப்பூர்வ விரைவான தொடக்கத்தைப் படிக்கவும்.
- ஆதரவு மேட்ரிக்ஸில் CUDA/TensorRT இணக்கத்தன்மையை உறுதிப்படுத்தவும்.
- எஞ்சின் உருவாக்கும் வழிகாட்டியைப் பின்பற்றி முதலில் FP16ஐத் தேர்ந்தெடுக்கவும்.
- TGI மூலம் பரிமாறினால், எஞ்சின்களை முன்கூட்டியே தொகுத்து TRT-LLM பின்கடையை உள்ளமைக்கவும்.
- விருப்பமாக, BLOOM போன்ற Hugging Face மாதிரிகளுக்கான ஒரு பயிற்சி-பாணி walkthrough ஐ மதிப்பாய்வு செய்யவும்.
முக்கிய குறிப்புகள்
- TensorRT-LLM உங்கள் Transformer ஐ அதிகபட்ச செயல்திறன் மற்றும் குறைந்த தாமதத்திற்கான GPU-சொந்த எஞ்சினாக தொகுக்கிறது.
- FP16 உடன் தொடங்கி, பக்க KV கேச்சை இயக்கி, அளவிடவும். பின்னர் அதிக வேகத்திற்கு INT8/FP8 ஐ ஆராயவும்.
- எஞ்சின்கள் GPU- மற்றும் உள்ளமைவு-குறிப்பிட்டவை; பயன்பாட்டு இலக்கு ஒன்றுக்கு உருவாக்கவும்.
- உற்பத்திக்கு, எஞ்சின்களை ஒரு வலுவான சேவை அடுக்கோடு இணைக்கவும் (எ.கா., TGI) மற்றும் TTFT, செயல்திறன் மற்றும் தரத்தை கண்காணிக்கவும்.
FAQ
Q1:TensorRT-LLM ஐ சரியான வழியில் எவ்வாறு நிறுவுவது மற்றும் அமைப்பது?
பொருத்தமான CUDA/TensorRT உடன் ஒரு கண்டெய்னரைப் பயன்படுத்தவும் அல்லது பதிப்பு மாற்றத்தைத் தவிர்க்க அதிகாரப்பூர்வ விரைவான தொடக்கம் மற்றும் ஆதரவு மேட்ரிக்ஸைப் பின்பற்றவும். எஞ்சின்களை தொகுப்பதற்கு முன் GPU டிரைவர்கள் மற்றும் உருவாக்க கருவிகளை சரிபார்க்கவும்.
Q2:Hugging Face மாதிரிகளுடன் TensorRT-LLM ஐ எவ்வாறு பயன்படுத்துவது?
மாதிரி மற்றும் டோக்கனைசரைப் பதிவிறக்கம் செய்து, ஆதரவை உறுதிசெய்து, எஞ்சினை உருவாக்குவதற்கு முன் தேவைக்கேற்ப மாற்றவும். TGI உடன் சேவை செய்தால், உங்கள் GPU க்கான எஞ்சின்களைத் தொகுத்து, எஞ்சின் டைரக்டரிக்கு பின்கடையைச் சுட்டிக்காட்டவும்.
Q3:TensorRT-LLM க்கு FP16, FP8 அல்லது INT8 ஐத் தேர்ந்தெடுக்க வேண்டுமா?
நிலையான தன்மைக்கு FP16 உடன் தொடங்கி, பின்னர் செயல்திறனை அதிகரிக்க FP8/INT8 ஐ முயற்சிக்கவும். குவாண்ட்டைசேஷனுக்குப் பிறகு எப்போதும் பணி துல்லியத்தை சரிபார்க்கவும்.
Q4:நான் HTTP வழியாக TensorRT-LLM ஐ பரிமாற முடியுமா?
ஆம். நீங்கள் Python/C++ ஐ நேரடியாகப் பயன்படுத்தலாம் அல்லது ஸ்ட்ரீமிங் மூலம் அளவிடக்கூடிய, உற்பத்திக்குத் தயாரான APIகளுக்கான Hugging Face TGI இன் TRT-LLM பின்கடை மூலம் சேவை செய்யலாம்.
Q5:TensorRT-LLM ஐப் பயன்படுத்தும் போது பொதுவான செயல்திறன் கழுத்துகள் என்ன?
டோக்கனைசர் மேல்நிலை, உகந்ததாக இல்லாத தொகுதி மற்றும் பக்க KV கேச் இல்லாதது ஆகியவை பொதுவான சிக்கல்கள். தொகுதி அளவுகளை டியூன் செய்யவும், CUDA வரைபடங்களை இயக்கவும் மற்றும் ஒட்டுமொத்த டோக்கன்கள்-விநாடிக்கு எதிராக TTFT ஐ கண்காணிக்கவும்.