પરિચય: TensorRT-LLM શા માટે તમારા વિકેન્ડના નિર્માણ માટે યોગ્ય છે
જો તમે ક્યારેય GPUને 60% ઉપયોગ પર બેઠેલું જોયું હોય જ્યારે તમારું LLM ધીમે ધીમે ચાલે છે, તો તમે જાણો છો કે ટેબલ પર મફત કામગીરી બાકી છે. TensorRT-LLM તે હેડરૂમને થ્રુપુટમાં ફેરવે છે: ફ્યુઝ્ડ કર્નલો, પેજ્ડ એટેન્શન, ક્વોન્ટાઇઝેશન અને ગ્રાફ-લેવલ ઓપ્ટિમાઇઝેશન જે લેટન્સીને નીચે ધકેલે છે અને ટોકન્સ-પર-સેકન્ડને ઉપર ધકેલે છે. આ કેવી રીતે કરવું તે માર્ગદર્શિકામાં, અમે ઇન્સ્ટોલથી લઈને એન્જિન બિલ્ડિંગથી લઈને સર્વિંગ સુધી બધું જ કરીશું—જેથી તમે NVIDIA GPUs પર વધુ ઝડપી, સસ્તા અનુમાનને આત્મવિશ્વાસથી જમાવી શકો.
આ ટ્યુટોરીયલ વ્યવહારુ અને ઉકેલ-લક્ષી શૈલીમાં લખાયેલું છે. અમે કૉપિયેબલ આદેશો, સામાન્ય મુશ્કેલીઓ અને FP16 વિ INT8, બેચિંગ અને KV કેશ વ્યૂહરચનાઓ માટેના નિર્ણય બિંદુઓ સાથે પ્રશ્ન-આગેવાનીવાળી રચનાનો ઉપયોગ કરીશું. અમે જ્યાં યોગ્ય હોય ત્યાં ઊંડાણપૂર્વકના અભ્યાસ માટે સત્તાવાર સ્ત્રોતોનો પણ સંદર્ભ લઈશું.
તમે શું શીખશો
- TensorRT-LLM માટે પર્યાવરણ કેવી રીતે સેટ કરવું
- એન્જિન બિલ્ડિંગ માટે મોડેલ (Hugging Face અથવા ચેકપોઇન્ટ્સમાંથી) કેવી રીતે તૈયાર કરવું
- FP16/INT8 એન્જિન કેવી રીતે બનાવવું અને કામગીરીને કેવી રીતે ટ્યુન કરવી
- Python/C++ અને HTTP સર્વિંગ દ્વારા અનુમાન કેવી રીતે ચલાવવું
- કેવી રીતે બેન્ચમાર્ક કરવું, બેચ કરવું અને ડિબગ કરવું
આ કોના માટે છે
- ML એન્જિનિયરો NVIDIA GPUs પર LLMs જમાવે છે
- ઉત્પાદનમાં કિંમત/લેટન્સીને ઑપ્ટિમાઇઝ કરનારા પ્રેક્ટિશનરો
- PyTorch Transformers થી અત્યંત ઑપ્ટિમાઇઝ્ડ અનુમાન તરફ આગળ વધનારા બિલ્ડરો
- TensorRT-LLM શું છે અને તમારે તેનો ઉપયોગ ક્યારે કરવો જોઈએ?
TensorRT-LLM એ એક અનુમાન સ્ટેક છે જે ટ્રાન્સફોર્મર મોડેલોને અત્યંત ઑપ્ટિમાઇઝ્ડ GPU “એન્જિન” માં કમ્પાઇલ કરે છે. કાચા PyTorch અથવા સામાન્ય રનટાઇમ્સની તુલનામાં, તમને સામાન્ય રીતે મળે છે:
- મોટા બેચ કદ પર ઉચ્ચ થ્રુપુટ
- પેજ્ડ KV કેશ અને ક્વોન્ટાઇઝેશન સાથે વધુ સારી મેમરી કાર્યક્ષમતા
જ્યારે તમે NVIDIA GPUs પર ચલાવો છો અને ઉત્પાદન-ગ્રેડ કામગીરીની કાળજી લો છો ત્યારે તેનો ઉપયોગ કરો. તે ખાસ કરીને ડીકોડર-ઓન્લી LLMs (દા.ત., Llama, Mistral, Phi, BLOOM) અને ચેટબોટ્સ, RAG અને હાઇ-QPS API સેવાઓ જેવા દૃશ્યો માટે મૂલ્યવાન છે.
- પૂર્વજરૂરીયાતો અને પર્યાવરણ સેટઅપ
મુખ્ય જરૂરિયાતો
- તાજેતરની ગણતરી ક્ષમતા સાથે NVIDIA GPU (દા.ત., Ampere, Ada, Hopper)
- મેચિંગ CUDA અને TensorRT વર્ઝન, વત્તા યોગ્ય ડ્રાઇવરો
- Python 3.8+ અને સોર્સમાંથી કમ્પાઇલિંગ કરી રહ્યા હોવ તો બિલ્ડ ટૂલ્સ
વર્ઝનિંગ નોંધ: ઇન્સ્ટોલ કરતા પહેલા સુસંગત CUDA/TensorRT વર્ઝન અને સુવિધાઓ માટે હંમેશાં સત્તાવાર TensorRT સપોર્ટ મેટ્રિક્સ અને રિલીઝ નોંધો તપાસો.
ક્વિક-સ્ટાર્ટ વિકલ્પો
- કન્ટેનરાઇઝ્ડ: પ્રીઇન્સ્ટોલ્ડ CUDA/TensorRT સાથે NVIDIA ના કન્ટેનરનો ઉપયોગ કરો—વર્ઝન મિસમેચને ટાળવાનો સૌથી ઝડપી રસ્તો.
- નેટીવ ઇન્સ્ટોલ: બેઝ TensorRT માટે સત્તાવાર ક્વિક સ્ટાર્ટને અનુસરો, પછી ટોચ પર TensorRT-LLM ને લેયર કરો.
- તમારા મોડેલને તૈયાર કરવું (Hugging Face → TensorRT-LLM)
સામાન્ય સ્ત્રોતો
- Hugging Face: Llama/Mistral/BLOOM વેરિયન્ટ્સ
- સ્થાનિક ચેકપોઇન્ટ્સ: કસ્ટમ ફાઇન-ટ્યુન્સ
તૈયારી ચેકલિસ્ટ
- ખાતરી કરો કે મોડેલ આર્કિટેક્ચર TensorRT-LLM દ્વારા સપોર્ટેડ છે.
- મોડેલ વજન અને ટોકનાઇઝર ડાઉનલોડ કરો.
- જો જરૂર હોય તો, safetensors ને અપેક્ષિત ફોર્મેટમાં કન્વર્ટ કરો અથવા પ્રોજેક્ટની સ્ક્રિપ્ટ્સ દ્વારા ONNX માં નિકાસ કરો.
ટીપ: સત્તાવાર ક્વિક સ્ટાર્ટમાં મોટે ભાગે મોડેલોને મેળવવા અને યોગ્ય મધ્યવર્તી સ્વરૂપમાં રૂપાંતરિત કરવા માટેની સ્ક્રિપ્ટ્સ શામેલ હોય છે. BLOOM ઉદાહરણ સાથે ટ્યુટોરીયલ-શૈલીના વોકથ્રુ માટે, Hugging Face LLMs ને TensorRT-LLM માં રૂપાંતરિત કરવા માટે Dell ની માર્ગદર્શિકા જુઓ.
- TensorRT-LLM એન્જિન બનાવવું (વર્કફ્લોનું હૃદય)
તમારે જાણવી જોઈએ તેવા ખ્યાલો
- એન્જિન: કમ્પાઇલ કરેલ, હાર્ડવેર-ઑપ્ટિમાઇઝ્ડ આર્ટિફેક્ટ તમે અનુમાન માટે લોડ કરો છો.
- ચોકસાઈ: મજબૂત બેઝલાઇન માટે FP16/BF16; જો ચોકસાઈ જળવાઈ રહે તો ઉચ્ચ થ્રુપુટ માટે INT8 અથવા FP8.
- KV કેશ: પેજ્ડ KV કેશ મેમરી ફ્રેગમેન્ટેશન ઘટાડે છે અને લાંબા-સંદર્ભ કામગીરીને વધારે છે.
ઉચ્ચ-સ્તરના પગલાં
- બિલ્ડ રૂપરેખાંકન વ્યાખ્યાયિત કરો: મહત્તમ બેચ, સિક્વન્સ લંબાઈ, ચોકસાઈ, ક્વોન્ટાઇઝેશન અને GPU આર્કિટેક્ચર.
- તમારા મોડેલ ચેકપોઇન્ટ્સ અને ટોકનાઇઝર તરફ નિર્દેશ કરો.
- તમારા લક્ષ્ય GPU(ઓ) માટે એન્જિન કમ્પાઇલ કરો.
સંદર્ભ: સત્તાવાર ડોક્સ અને રૂપરેખાંકનો સાથે એન્જિન બનાવવું. જો તમે Hugging Face Text Generation Inference (TGI) દ્વારા સેવા આપવાની યોજના ઘડી રહ્યા હો, તો GPU આર્કિટેક્ચર અને રૂપરેખાંકન દીઠ પ્રીકમ્પાઇલિંગ એન્જિન્સ પર TRT-LLM બેકેન્ડ નોંધો જુઓ.
સ્ટાર્ટર નિર્ણય ટ્રી
- પ્રથમ બિલ્ડ: FP16, મધ્યમ મહત્તમ સિક્વન્સ લંબાઈ (દા.ત., 4K–8K), મધ્યમ બેચ (દા.ત., 4–8). ચોકસાઈને માન્ય કરો.
- સ્કેલિંગ અપ: પેજ્ડ KV કેશને સક્ષમ કરો. મહત્તમ બેચ/બીમ કદમાં વધારો કરો. FP8 અથવા INT8 સાથે પ્રયોગ કરો.
- ઉત્પાદન: લેટન્સી/QPS SLOs ને પૂરી કરતા રૂપરેખાંકનોને પિન કરો; દરેક પરિસ્થિતિ માટે અલગ એન્જિન બનાવો (ટૂંકા પ્રોમ્પ્ટ્સ વિ લાંબા-સંદર્ભ).
- અનુમાન ચલાવવું: Python, C++ અને HTTP
તમારી પાસે ત્રણ સામાન્ય માર્ગો છે:
- Python: ઝડપી પ્રોટોટાઇપિંગ, પાઇપલાઇન્સ અને નોટબુક માટે આદર્શ.
- C++: મહત્તમ કામગીરી, નેટીવ સેવાઓમાં એકીકરણ.
- HTTP સર્વિંગ: સ્કેલેબલ જમાવટ માટે TRT-LLM બેકેન્ડ અથવા રનટાઇમના સર્વિંગ ઉદાહરણો સાથે TGI નો ઉપયોગ કરો.
Hugging Face TGI બેકેન્ડ
- તમારા ચોક્કસ GPU/ચોકસાઈ સેટઅપ માટે એન્જિન પ્રીકમ્પાઇલ કરો.
- TRT-LLM બેકેન્ડ સાથે TGI સ્પિન અપ કરો અને તેને એન્જિન ડિર પર નિર્દેશ કરો.
- /generate અથવા openai-સુસંગત રૂટ્સ દ્વારા વિનંતીઓ મોકલો અને પ્રતિકૃતિઓ સાથે સ્કેલ કરો.
- કામગીરી ટ્યુનિંગ જે ખરેખર પરિણામ લાવે છે
ક્યાંથી શરૂ કરવું
- ચોકસાઈ: FP16 એ તમારી વિશ્વસનીય બેઝલાઇન છે. INT8/FP8 વધુ લેટન્સી ઘટાડી શકે છે, પરંતુ ગુણવત્તાને માન્ય કરો.
- બેચિંગ: ડાયનેમિક બેચિંગ અને વિનંતી કોલેસિંગ નાટ્યાત્મક રીતે થ્રુપુટમાં વધારો કરે છે; પૂંછડી લેટન્સીને માપો.
- પેજ્ડ KV કેશ: લાંબા પ્રોમ્પ્ટ્સ અને સ્ટ્રીમિંગ માટે આવશ્યક; મેમરી દબાણ ઘટાડે છે.
- મહત્તમ લંબાઈ: મોટી મહત્તમ સિક્વન્સ લંબાઈ એન્જિનનું કદ વધારે છે અને ઘડિયાળ ઘટાડી શકે છે; હેતુ માટે યોગ્ય એન્જિન બનાવો.
વ્યવહારુ ટીપ્સ
- વાસ્તવિક પ્રોમ્પ્ટ્સ સાથે બેન્ચમાર્ક કરો: પ્રીફિલ વિ ડીકોડ તબક્કાઓને અલગથી માપો.
- ટોકનાઇઝર થ્રુપુટ મહત્વપૂર્ણ છે: જો તમારું ફ્રેમવર્ક તેને સપોર્ટ કરતું હોય તો GPU પર કરો.
- CUDA ગ્રાફ્સ/ફ્યુઝ્ડ કર્નલ્સ પર નજર રાખો: તેઓ CPU ઓવરહેડ અને કર્નલ લોન્ચ લેટન્સી ઘટાડે છે.
- મલ્ટી-GPU માટે: તમારા મોડેલના કદ અને લેટન્સી જરૂરિયાતો અનુસાર ટેન્સર સમાંતર અથવા પાઇપલાઇન સમાંતરને પસંદ કરો.
- બેન્ચમાર્કિંગ: જીત સાબિત કરો
ચેકલિસ્ટ
- લક્ષ્ય બેચ કદ પર ટોકન્સ/સેકન્ડ (થ્રુપુટ)
- પ્રથમ-ટોકનનો સમય (TTFT) અને વિનંતી દીઠ એન્ડ-ટુ-એન્ડ લેટન્સી
- પીક QPS હેઠળ GPU ઉપયોગ અને મેમરી હેડરૂમ
- ચોકસાઈ: જો તમે ક્વોન્ટાઇઝ કરો છો તો BLEU/પર્પ્લેક્સિટી અથવા કાર્ય-વિશિષ્ટ ઇવેલ્સ
ચોકસાઈ અને ડેલ્ટાને માન્ય કરવા માટે બેઝલાઇન્સ (PyTorch વિ TensorRT-LLM) માં સુસંગત બીજ અને પ્રોમ્પ્ટ સેટ્સનો ઉપયોગ કરો.
- ડીબગીંગ અને સામાન્ય મુશ્કેલીઓ
- મેળ ખાતા ન હોય તેવા વર્ઝન: સત્તાવાર સપોર્ટ મેટ્રિક્સ દીઠ CUDA, ડ્રાઇવરો અને TensorRT વર્ઝનને સંરેખિત કરો.
- ઉપકરણ માટે અમાન્ય એન્જિન: ખાસ કરીને તમારા GPU આર્કિટેક્ચર માટે એન્જિન ફરીથી બનાવો.
- બિલ્ડ દરમિયાન OOM: મહત્તમ સિક્વન્સ લંબાઈ અથવા બેચ ઘટાડો; પેજ્ડ KV સક્ષમ કરો; ક્વોન્ટાઇઝેશનનો વિચાર કરો.
- INT8 સાથે ચોકસાઈમાં ઘટાડો: ડોમેન-પ્રતિનિધિત્વ ડેટા પર કેલિબ્રેટ કરો; પ્રતિ-ટેન્સર ક્વોન્ટાઇઝેશનનો પ્રયાસ કરો અને લેયર-વાઇઝ સંવેદનશીલતા ચકાસો.
- ઉચ્ચ થ્રુપુટ હોવા છતાં ધીમી TTFT: પેજ્ડ KV કેશને ટ્યુન કરો, CUDA ગ્રાફ્સને સક્ષમ કરો અને ટોકનાઇઝર બોટલનેક્સ માટે તપાસો.
- ઉદાહરણ વર્કફ્લો: Hugging Face મોડેલથી ઉત્પાદન સુધી
પરિસ્થિતિ: તમને A100 પર ઓછી-લેટન્સી ચેટ મોડેલ જોઈએ છે.
- મોડેલ પસંદ કરો: 7B–13B Llama/Mistral વેરિયન્ટ.
- તૈયાર કરો: વજન અને ટોકનાઇઝર ડાઉનલોડ કરો; ચકાસો કે આર્કિટેક્ચર સપોર્ટેડ છે.
- પ્રથમ એન્જિન: FP16, મહત્તમ ઇનપુટ 4K, મહત્તમ આઉટપુટ 1K, બેચ 4; પેજ્ડ KV ચાલુ.
- માન્ય કરો: તમારા PyTorch બેઝલાઇન સાથે આઉટપુટની તુલના કરો.
- ઑપ્ટિમાઇઝ કરો: INT8 અથવા FP8 નો પ્રયાસ કરો; TTFT અને થ્રુપુટને માપો. સર્વર મોડ માટે બેચમાં વધારો કરો.
- સેવા આપો: TGI TRT-LLM બેકેન્ડનો ઉપયોગ કરો; લોડ બેલેન્સર પાછળ પ્રતિકૃતિઓને સ્કેલ કરો; સ્ટ્રીમિંગ ઉમેરો.
- GPU દીઠ થ્રુપુટ: તમારા લક્ષ્ય સંદર્ભમાં ટોકન્સ/સેકન્ડને માપો. QPS ક્ષમતાની ગણતરી કરવા માટે તેનો ઉપયોગ કરો.
- 1M ટોકન્સ દીઠ કિંમત: ઝડપી ડીકોડિંગ અને ઉચ્ચ બેચ ઉપયોગ સાથે, TRT-LLM સામાન્ય રીતે ટોકન દીઠ કિંમત ઘટાડે છે.
- રાઇટ-સાઇઝ એન્જિન: હેડરૂમ કચરો ઘટાડવા માટે ટૂંકા-ફોર્મ અને લાંબા-ફોર્મ માટે અલગ એન્જિન બનાવો.
- માર્ગદર્શિકાની અંદર FAQs
પ્રશ્ન: શું મારે દરેક GPU પ્રકાર માટે એન્જિન ફરીથી બનાવવાની જરૂર છે?
જવાબ: હા. એન્જિન હાર્ડવેર-વિશિષ્ટ છે. તમે જે GPU આર્કિટેક્ચર પર જમાવટ કરશો તેના માટે બનાવો.
પ્રશ્ન: INT8 ગુણવત્તાને કેટલી અસર કરે છે?
જવાબ: તે મોડેલ અને કાર્ય પર આધાર રાખે છે. સારા કેલિબ્રેશન ડેટા સાથે, ઘણા મોડેલો નોંધપાત્ર સ્પીડઅપ્સ આપતી વખતે લગભગ-FP16 ગુણવત્તા જાળવી રાખે છે.
પ્રશ્ન: શું હું લાંબા સંદર્ભો (દા.ત., 32K) ચલાવી શકું?
જવાબ: હા, પરંતુ મેમરીની કાળજીપૂર્વક યોજના બનાવો. પેજ્ડ KV કેશનો ઉપયોગ કરો અને બ્લોક કદને ટ્યુન કરો; નોંધ કરો કે લાંબા સંદર્ભો એન્જિન ફૂટપ્રિન્ટ અને ડીકોડ ખર્ચમાં વધારો કરે છે.
પ્રશ્ન: શું TGI જરૂરી છે?
જવાબ: ના. તમે સીધા Python/C++ ચલાવી શકો છો. TGI એ ઓટોસ્કેલિંગ અને લોગીંગ સાથેના ઉત્પાદન-ગ્રેડ HTTP APIs માટે અનુકૂળ છે.
વર્કફ્લો પ્રવેગ માટે નોંધવા જેવું
જો તમે વારંવાર પ્રોમ્પ્ટ્સ પર પુનરાવર્તન કરો છો, તો એન્જિનમાં આઉટપુટની તુલના કરો છો અથવા પ્રયોગો દસ્તાવેજ કરો છો, તો બાજુ-બાજુ AI સહાયક જે ઝડપી પુનઃપ્રયાસો, કોડ બ્લોક એક્ઝેક્યુશન અને વેબ સ્નિપેટ્સને સપોર્ટ કરે છે તે તમારા લૂપને ઝડપી બનાવી શકે છે. માર્ગ દ્વારા, Sider.AI એન્જિનિયરો માટે ટ્યુન કરેલો ડેસ્કટોપ અનુભવ પ્રદાન કરે છે—બેન્ચમાર્ક્સ કેપ્ચર કરવા, પ્રોમ્પ્ટ્સનું પરીક્ષણ કરવા અને તમારા TensorRT-LLM પાઇપલાઇનને ઑપ્ટિમાઇઝ કરતી વખતે તમારી નોંધોને વ્યવસ્થિત કરવા માટે સરળ. આગળનાં પગલાંની ચેકલિસ્ટ
- તમારા પર્યાવરણને માન્ય કરવા માટે સત્તાવાર ક્વિક સ્ટાર્ટ વાંચો.
- સપોર્ટ મેટ્રિક્સમાં CUDA/TensorRT સુસંગતતાની પુષ્ટિ કરો.
- એન્જિન-બિલ્ડિંગ માર્ગદર્શિકાને અનુસરો અને પહેલા FP16 પસંદ કરો.
- જો TGI દ્વારા સેવા આપી રહ્યા હો, તો એન્જિન પ્રીકમ્પાઇલ કરો અને TRT-LLM બેકેન્ડને ગોઠવો.
- વૈકલ્પિક રીતે, BLOOM જેવા Hugging Face મોડેલો માટે ટ્યુટોરીયલ-શૈલીના વોકથ્રુની સમીક્ષા કરો.
મુખ્ય બાબતો
- TensorRT-LLM મહત્તમ થ્રુપુટ અને ઓછી લેટન્સી માટે તમારા ટ્રાન્સફોર્મરને GPU-નેટીવ એન્જિનમાં કમ્પાઇલ કરે છે.
- FP16 થી શરૂઆત કરો, પેજ્ડ KV કેશને સક્ષમ કરો અને માપો. પછી વધુ ઝડપ માટે INT8/FP8 નું અન્વેષણ કરો.
- એન્જિન GPU- અને રૂપરેખાંકન-વિશિષ્ટ છે; જમાવટ લક્ષ્ય દીઠ બનાવો.
- ઉત્પાદન માટે, એન્જિનને મજબૂત સર્વિંગ લેયર (દા.ત., TGI) સાથે જોડો અને TTFT, થ્રુપુટ અને ગુણવત્તાનું નિરીક્ષણ કરો.
FAQ
Q1:હું TensorRT-LLM ને યોગ્ય રીતે કેવી રીતે ઇન્સ્ટોલ અને સેટ કરી શકું?
મેળ ખાતા CUDA/TensorRT સાથે કન્ટેનરનો ઉપયોગ કરો અથવા વર્ઝન ડ્રિફ્ટને ટાળવા માટે સત્તાવાર ક્વિક સ્ટાર્ટ અને સપોર્ટ મેટ્રિક્સને અનુસરો. એન્જિન કમ્પાઇલ કરતા પહેલા GPU ડ્રાઇવરો અને બિલ્ડ ટૂલ્સ ચકાસો.
Q2:Hugging Face મોડેલો સાથે TensorRT-LLM નો ઉપયોગ કેવી રીતે કરવો?
મોડેલ અને ટોકનાઇઝર ડાઉનલોડ કરો, સપોર્ટની પુષ્ટિ કરો અને એન્જિન બનાવતા પહેલા જરૂર મુજબ કન્વર્ટ કરો. જો TGI સાથે સેવા આપી રહ્યા હો, તો તમારા GPU માટે એન્જિન કમ્પાઇલ કરો અને બેકેન્ડને એન્જિન ડિરેક્ટરી તરફ નિર્દેશ કરો.
Q3:મારે TensorRT-LLM માટે FP16, FP8 અથવા INT8 પસંદ કરવું જોઈએ?
સ્થિરતા માટે FP16 થી પ્રારંભ કરો, પછી થ્રુપુટ વધારવા માટે FP8/INT8 નો પ્રયાસ કરો. ક્વોન્ટાઇઝેશન પછી હંમેશાં કાર્યની ચોકસાઈને માન્ય કરો.
Q4:શું હું HTTP પર TensorRT-LLM ની સેવા આપી શકું?
હા. તમે સીધા Python/C++ નો ઉપયોગ કરી શકો છો અથવા સ્ટ્રીમિંગ સાથે સ્કેલેબલ, ઉત્પાદન-તૈયાર APIs માટે Hugging Face TGI ના TRT-LLM બેકેન્ડ દ્વારા સેવા આપી શકો છો.
Q5:TensorRT-LLM નો ઉપયોગ કરતી વખતે સામાન્ય કામગીરી બોટલનેક્સ શું છે?
ટોકનાઇઝર ઓવરહેડ, સબઓપ્ટિમલ બેચિંગ અને પેજ્ડ KV કેશનો અભાવ સામાન્ય સમસ્યાઓ છે. બેચ કદને ટ્યુન કરો, CUDA ગ્રાફ્સને સક્ષમ કરો અને એકંદર ટોકન્સ-પર-સેકન્ડની સામે TTFT નું નિરીક્ષણ કરો.