உண்மையில் நீங்கள் வெற்றி பெறக்கூடிய வேகப் பந்தயம்
விரைவான AI அம்சங்களை அனுப்ப உங்களுக்கு அதிகப்படியான பட்ஜெட் தேவையில்லை. நீங்கள் GPT-NeoX-ஐ பயன்படுத்த முயற்சி செய்து தாமதத்தை அடைந்திருந்தால், நீங்கள் மட்டும் தனியாக இல்லை: 20B-பராமீட்டர் வகுப்பு மாதிரிகள் பொதுவான GPU-களில் சுமையாகவும், CPU-களில் மந்தமாகவும் உணரலாம். நல்ல செய்தி என்னவென்றால்? புதிய, திறந்த மூல AI மாதிரிகள் போட்டியிடும் தரத்துடன் வேகமான பதில்களை வழங்க முடியும் - குறிப்பாக சாட், ஏஜென்ட்கள், மீட்டெடுப்பு-உதவி உருவாக்கம் (RAG) மற்றும் கோடிங் கோபைலட்கள் போன்றவற்றுக்கு.
இந்த வழிகாட்டி GPT-NeoX-ஐ விட வேகமான ஐந்து திறந்த மூல AI மாதிரிகளை எடுத்துக்காட்டுகிறது, அவை ஏன் விரைவாக உள்ளன என்பதை விளக்குகிறது, மேலும் ஒவ்வொன்றும் எங்கு சிறப்பாக செயல்படுகிறது என்பதைக் காட்டுகிறது. நாங்கள் நடைமுறைத் தேர்வுகளுக்கு முக்கியத்துவம் கொடுப்போம்: டோக்கனைசர் திறன், குவாண்ட்டைசேஷன் ஆதரவு, KV-கேச் செயல்திறன் மற்றும் வலுவான அனுமான அடுக்குகள் (vLLM, TensorRT-LLM, llama.cpp).
ஸ்டைல் குறிப்பு: நடைமுறை மற்றும் நேரடியானது. நாங்கள் பரிந்துரைக்கும் மாதிரிகளைப் போலவே வேகமாகவும் செயல்படுவோம்.
"GPT-NeoX ஐ விட வேகமானது" ஏன் முக்கியமானது
- குறைந்த தாமதம்: ஒரு நொடிக்குள் முதல் டோக்கன் வருவது இயற்கையான சாட் மற்றும் சிறந்த UX ஐ குறிக்கிறது.
- அதிக உற்பத்தித்திறன்: டோக்கன்களைச் செகண்டுக்கு அதிகமாகப் பிழிவதன் மூலம் ஒரு GPU-க்கு அதிக பயனர்களுக்குச் சேவை செய்யுங்கள்.
- மலிவான உள்கட்டமைப்பு: சிறிய மாதிரிகள் அல்லது சிறந்த கர்னல்கள் ஒரே டிராஃபிக்கிற்கு குறைவான GPU-களைக் குறிக்கின்றன.
- எட்ஜிற்குப் பொருத்தமானது: 4-பிட் குவாண்ட்டைசேஷனுடன் CPU/Metal அனுமானம் சாத்தியமாகும்.
GPT-NeoX திறந்த மொழி மாதிரியத்தில் ஒரு மைல்கல்லாக இருந்து வருகிறது, ஆனால் அதன் அளவு (பெரும்பாலும் 20B வகைகள்) மற்றும் பழைய கர்னல்கள் தடையாக இருக்கலாம். இன்றைய சிறிய கட்டமைப்புகள், தொகுக்கப்பட்ட-வினவல் கவனம் (GQA), ஸ்லைடிங் விண்டோ கவனம் மற்றும் மிகவும் மேம்படுத்தப்பட்ட ரன்டைம்கள் புதிய விருப்பங்களுக்கு சாதகமாக உள்ளன.
"வேகமானது" என்பதை நாங்கள் எவ்வாறு மதிப்பிட்டோம்
வேகம் என்பது ஒரு எண் அல்ல. நாங்கள் கவனம் செலுத்துவது:
- முதல் டோக்கனுக்கான நேரம் (TTFT): உணரப்படும் பதிலளிப்பு.
- வினாடிக்கு டோக்கன்கள் (TPS): நிலையான டிகோட் வேகம்.
- நினைவக அளவு மற்றும் குவாண்ட்டைசேஷன்: எட்ஜ் மற்றும் குறைந்த VRAM GPU-களுக்கான 4-பிட்/8-பிட் ஆதரவு.
- சேவை அடுக்கு: vLLM, TensorRT-LLM, llama.cpp மற்றும் திறமையான KV கேச் உடன் இணக்கத்தன்மை.
வரிசை நீளம், தொகுதி அளவு, GPU வகை (A100 vs நுகர்வோர் RTX) மற்றும் கர்னல் தேர்வுகள் ஆகியவற்றைப் பொறுத்து உங்கள் பயன்பாடு வேறுபடும். இருப்பினும், பொதுவான அமைப்புகளில், பின்வரும் மாதிரிகள் பல பணிகளுக்கு தரமானதாக இருக்கும் அதே வேளையில் GPT-NeoX ஐ விட தொடர்ந்து வேகமாக இயங்குகின்றன.
GPT-NeoX ஐ விட வேகமான முதல் 5 திறந்த மூல AI மாதிரிகள்
1) Llama 3.1 8B Instruct (Meta)
- இது ஏன் வேகமானது: நவீன கவனம் (GQA உடன்), திறமையான டோக்கனைசர் மற்றும் vLLM, llama.cpp (GGUF) மற்றும் TensorRT-LLM முழுவதும் சிறந்த ஆதரவு. 8B அளவு ஒரு 24GB GPU-வில் வேகத்தை உருவாக்குகிறது; குவாண்ட்டைஸ் செய்யப்பட்ட உருவாக்கங்கள் நுகர்வோர் GPU-கள் மற்றும் CPU-களில் கூட இயங்கும்.
- இது எங்கு சிறந்து விளங்குகிறது: பொதுவான சாட், குறுகிய மற்றும் நடுத்தர சூழல்களுடன் RAG, இலகுரக ஏஜென்ட்கள் மற்றும் தயாரிப்பு உதவியாளர்கள். உறுதியான அறிவுறுத்தல்-பின்பற்றல்.
- உண்மையான எட்ஜ்: M-சீரிஸ் Mac அல்லது ஒரு சாதாரண CPU சர்வரில் llama.cpp வழியாக 4-பிட் GGUF உடன், Llama 3.1 8B வேகமான ஊடாடும் தாமதங்களை வழங்க முடியும், அங்கு GPT-NeoX ஊர்ந்து செல்லும்.
- இதனுடன் இணைக்கவும்: பல-பயனர்களுக்கான சேவையகத்திற்கு vLLM அல்லது எட்ஜ் பயன்பாட்டிற்கு llama.cpp.
2) Mistral 7B Instruct (Mistral AI)
- இது ஏன் வேகமானது: 7B அளவு, வலுவான டோக்கனைசர் திறன் மற்றும் பிரபலமான ரன்டைம்களில் உயர்தர கர்னல்கள். Mistral-ன் கட்டமைப்பு மற்றும் பயிற்சி ஒரு சிறந்த வேகம்/தரம் சுயவிவரத்தை தருகிறது.
- இது எங்கு சிறந்து விளங்குகிறது: குறுகிய வடிவ பகுத்தறிவு, கோட் குறிப்புகள், அறிவு உதவியாளர்கள் மற்றும் பல மொழி குறுகிய பதில்கள். பயன்பாட்டு பணிகளுக்கு அதன் அளவை விட அதிகமாகச் செயல்படுகிறது.
- உண்மையான எட்ஜ்: 4-பிட்டில் உள்ள Mistral 7B நுகர்வோர் RTX கார்டுகளில் சிறந்த TPS-ஐ அடைகிறது; சாட் UI-கள் உடனடியாக உணர TTFT போதுமானதாக உள்ளது. இது செலவு குறைந்த உற்பத்திக்கு ஒரு முக்கிய அடிப்படையாகும்.
- இதனுடன் இணைக்கவும்: அதிக உற்பத்தித்திறனுக்காக vLLM + PagedAttention; மொபைல்/எட்ஜ்க்கு llama.cpp.
3) Phi-3 Mini 3.8B (Microsoft)
- இது ஏன் வேகமானது: சிறியது ஆனால் வலிமையானது. 3.8B அளவுருக்களில், Phi-3 Mini CPU-கள் மற்றும் ஒருங்கிணைந்த GPU-களில் ஆக்கிரமிப்பு குவாண்ட்டைசேஷனுடன் அலறுகிறது, அதே நேரத்தில் ஒத்திசைவான வெளியீடுகளை பராமரிக்கிறது.
- இது எங்கு சிறந்து விளங்குகிறது: உட்பொதிக்கப்பட்ட ஏஜென்ட்கள், சாதனத்தின் சுருக்கம், ஆஃப்லைன் நோட் உதவியாளர்கள் மற்றும் குறைந்த கணக்கீட்டு RAG. நீங்கள் மூல திறனை விட தாமதம் மற்றும் செலவுக்கு முன்னுரிமை அளிக்க வேண்டும் போது இது சிறந்தது.
- உண்மையான எட்ஜ்: முதல் டோக்கன் தாமதம் பொதுவான ஹார்டுவேரில் உடனடியாக உணர முடியும். GPT-NeoX ஐ விட 2-3 மடங்கு உற்பத்தித்திறனைப் பார்ப்பீர்கள்.
- இதனுடன் இணைக்கவும்: விண்டோஸிற்கான ONNX Runtime / DirectML, கிராஸ்-பிளாட்ஃபார்மிற்காக llama.cpp.
4) Qwen2 7B Instruct (Alibaba)
- இது ஏன் வேகமானது: வலுவான பல மொழி ஆதரவு மற்றும் நன்கு மேம்படுத்தப்பட்ட அனுமான கிராஃப்களுடன் கூடிய திறமையான கட்டமைப்பு. vLLM மற்றும் TensorRT-LLM இல் வலுவான கருவி.
- இது எங்கு சிறந்து விளங்குகிறது: பல மொழி சாட், இணைய கருவிகள், செயல்பாடு அழைத்தல் மற்றும் இணையவழி-பாணி அறிவு பணிகள். மொழிகள் முழுவதும் வேகம் மற்றும் துல்லியத்தின் சிறந்த சமநிலை.
- உண்மையான எட்ஜ்: KV-கேச் ஆஃப்லோடிங் மற்றும் 4-பிட் குவாண்ட்டைசேஷனுடன், Qwen2 7B பெரும்பாலான ஆப் ஓட்டங்களில் பதிலளிக்கும் தரத்தை பாதுகாக்கும் போது GPT-NeoX ஐ விட அதிக தொகுதி உற்பத்தித்திறனை தக்க வைத்துக் கொள்கிறது.
- இதனுடன் இணைக்கவும்: NVIDIA அடுக்குகளுக்கான TensorRT-LLM; பல-மாடல் சேவையகத்திற்கு vLLM.
5) TinyLlama 1.1B Chat (Community)
- இது ஏன் வேகமானது: இது சிறியது - அதுதான் குறிக்கோள். 1.1B அளவுருக்கள் மற்றும் சிறந்த GGUF ஆதரவுடன், TinyLlama நடைமுறையில் எதிலும் இயங்குகிறது.
- இது எங்கு சிறந்து விளங்குகிறது: அதி-குறைந்த தாமத தூண்டுதல்கள், வகைப்பாடு, டெம்ப்ளேட் பதில்கள், ஸ்ட்ரீமிங் UI குறிப்புகள் மற்றும் ஏஜென்ட் கிராஃப்களில் வாட்ச் டாக்/கோ-பைலட் பணிகள்.
- உண்மையான எட்ஜ்: மடிக்கணினி CPU-களில் 100ms க்கும் குறைவான பதில்கள் பொதுவானவை. அதிக மாடலை அழைப்பதற்கு முன் ரூட்டிங், கார்ட்ரெயில்கள் அல்லது முன்-வடிகட்டிகளுக்கு ஏற்றது.
- இதனுடன் இணைக்கவும்: எடை குறைந்த உள்ளூர் அனுமானத்திற்காக llama.cpp; துல்லியத்திற்காக மறுவரிசைப்படுத்துதல் + RAG உடன் இணைக்கவும்.
உங்கள் அடுக்குக்கு ஏற்றதாக இருக்கும் கௌரவமான குறிப்புகள்
- Llama 3.1 70B Instruct: GPT-NeoX ஐ விட சிறியது அல்ல, ஆனால் சிறந்த கர்னல்கள் மற்றும் கட்டமைப்பு காரணமாக, இது உயர்-இறுதி GPU-களில் ஒரு யூனிட் திறனுக்கு சிறந்த TPS ஐ வழங்க முடியும். நியாயமான வேகத்துடன் அதிக தரம் தேவைப்பட்டால், இது கட்டாயமானது.
- Mixtral 8x7B: தொகுதி அளவுகள் சரிசெய்யப்படும்போது வலுவான தரம் மற்றும் நல்ல உற்பத்தித்திறன் கொண்ட நிபுணர்களின் கலவை மாதிரி; செயல்படுத்தல் பற்றாக்குறை தாமதத்திற்கு உதவக்கூடும், ஆனால் நினைவக அலைவரிசை கவனமாக நிர்வகிக்கப்பட வேண்டும்.
- Gemma 2 9B: வலுவான அனுமான ஆதரவுடன் நல்ல செயல்திறன்/அளவு சமநிலை; vLLM-கீழ் மிகவும் வேகமாக இருக்க முடியும்.
ஒரு பார்வையில் விரைவான ஒப்பீடு
- குறைந்தபட்ச ஹார்டுவேரில் வேகமான முதல்-டோக்கன்: Phi-3 Mini, TinyLlama.
- வேகம் மற்றும் திறனின் சிறந்த சமநிலை: Llama 3.1 8B, Mistral 7B, Qwen2 7B.
- பெரிய அளவில் சேவை செய்ய எளிதானது (சூழலியல்/கருவி): vLLM/TensorRT-LLM மூலம் Llama 3.1, Mistral 7B, Qwen2 7B.
- பல மொழிக்கு சிறந்தது: Qwen2 7B.
- எட்ஜ்/ஆஃப்லைனுக்கு சிறந்தது: Phi-3 Mini, TinyLlama.
ஐந்தும் வழக்கமாக GPT-NeoX ஐ விட சாட்-ஸ்டைல் மற்றும் RAG பயன்பாட்டிற்கு வேகமாக இருக்கும், குறிப்பாக குவாண்ட்டைஸ் செய்யப்பட்டு நவீன ரன்டைம்ஸ் மூலம் வழங்கப்பட்டால்.
நடைமுறை பயன்பாட்டு முறைகள் (நகலெடுக்க ஏற்றது)
உதாரணம்: vLLM உடன் வேகமான சாட் API (Llama 3.1 8B)
- ஹார்டுவேர்: 1× RTX 3090/4090 அல்லது A10/A100
- டென்சார் இணைத் தன்மை 1 ஆக அமைக்கப்பட்டு vLLM ஐத் தொடங்கவும், PagedAttention ஐ இயக்கவும், KV கேச் முன்னதாக ஒதுக்கீடு செய்யவும்.
- FP16 அல்லது INT8 ஐப் பயன்படுத்தவும்; ஏற்றுக்கொள்ளக்கூடிய தர இழப்புடன் 4-பிட்டிற்கு AWQ அல்லது GPTQ ஐக் கவனியுங்கள்.
- இறுக்கமான தாமதங்களுக்கு max_new_tokens பழமைவாதமாக வைத்திருங்கள் (256–512).
- தொகுதி-முதல் திட்டமிடலை இயக்கவும்; உங்கள் UI-க்கு டோக்கன்களை உடனடியாக ஸ்ட்ரீம் செய்யவும்.
உதாரணம்: macOS இல் எட்ஜ் சுருக்கம் (llama.cpp வழியாக Phi-3 Mini)
- Q4_K_M அல்லது Q5_K_M GGUF க்கு குவாண்ட்டைஸ் செய்யவும்.
- செயல்திறன் மையத்திற்கு 4–8 நூல்களைப் பயன்படுத்தவும்; வேகமான கேச் ஹிட்களுக்கு குறைந்த சூழலை அமைக்கவும் (1k–2k டோக்கன்கள்).
- TTFT ஐ குறைவாக வைத்திருக்க வெளியீட்டை ஸ்ட்ரீம் செய்யவும்.
உதாரணம்: பல மொழி உதவியாளர் (Qwen2 7B + TensorRT-LLM)
- FP8 அல்லது INT8 அளவுத்திருத்தத்துடன் ஒரு எஞ்சினை உருவாக்கவும்.
- நீண்ட ஆவணங்களுக்கு KV கேச் மறுபயன்பாடு மற்றும் ஸ்லைடிங் விண்டோ கவனத்தை இயக்கவும்.
- கோரிக்கைகளை ஆக்ரோஷமாகத் தொகுக்கவும்; உச்ச TPS-க்கு ஊக டிகோடிங்கை நம்புங்கள்.
இந்த மாதிரிகள் ஏன் GPT-NeoX ஐ விட அதிகமாக உள்ளன
- அளவுரு திறன்: 3–8B நவீன கட்டமைப்புகள் இப்போது பல நடைமுறை பணிகளில் பழைய 20B மாதிரிகளை மிஞ்சுகின்றன அல்லது விஞ்சுகின்றன.
- மேம்படுத்தப்பட்ட கவனம்: GQA மற்றும் ஸ்லைடிங் விண்டோக்கள் கணக்கீடு மற்றும் நினைவக போக்குவரத்தை குறைக்கின்றன.
- சிறந்த ரன்டைம்கள்: vLLM இன் PagedAttention, TensorRT-LLM இணைந்த கர்னல்கள், llama.cpp CPU/Metal மேம்படுத்தல்கள்.
- குவாண்ட்டைசேஷன்-முதல் கலாச்சாரம்: சமூக GGUF, AWQ, GPTQ மற்றும் bitsandbytes 4–8 பிட் வழக்கமாக்குகின்றன.
எளிமையாகச் சொன்னால்: சுற்றுச்சூழல் முன்னேறியது. GPT-NeoX ஆராய்ச்சி மற்றும் வரலாற்று அடிப்படைக்கு மதிப்புமிக்கதாக உள்ளது, ஆனால் தயாரிப்பு தாமதத்திற்கு இலகுவான மாதிரிகள் வெற்றி பெறுகின்றன.
பயன்பாட்டு வழக்குகள் மற்றும் மாதிரி பொருத்தம்
- அறிவு தளங்களுக்கான RAG சாட்போட்கள்: Llama 3.1 8B அல்லது Mistral 7B + மறுவரிசைப்படுத்துதல்; மீட்டெடுப்புக்குப் பிறகு ஒப்பிடக்கூடிய தரத்துடன் GPT-NeoX உடன் வேகமான வேகத்தை எதிர்பார்க்கலாம்.
- வாடிக்கையாளர் ஆதரவு திசைதிருப்பல்: பல மொழி கேள்விகளுக்கு Qwen2 7B; ஏககாலத்திற்காக குவாண்ட்டைஸ் செய்யவும், டெம்ப்ளேட்கள் மூலம் பதில்களை தெளிவாக வைத்திருங்கள்.
- சாதனத்தில் கோபைலட்கள்: குறிப்புகள், மின்னஞ்சல் வரைவுகள் மற்றும் சரிபார்ப்புப் பட்டியல் உருவாக்கத்திற்கான Phi-3 Mini; உள்ளூர் சொற்பொருள் தேடலுக்கு ஒரு சிறிய உட்பொதித்தல் மாதிரியுடன் இணைக்கவும்.
- ஏஜென்ட் கிராஃப்கள்: ஒரு ரூட்டர், வகைப்பாடு தலை அல்லது கார்ட்ரெய்லாக TinyLlama; நம்பிக்கை குறைவாக இருக்கும்போது மட்டுமே ஒரு பெரிய மாதிரியை அழைக்கவும்.
இன்னும் அதிகமான வேகத்திற்காக ட்யூனிங்
- சூழல் நீளத்தை வரம்பிடவும்: நீண்ட தூண்டுதல்கள் கணக்கீட்டை வெடிக்கச் செய்கின்றன; சாளரங்களை சிறியதாக வைத்திருக்க RAG ஐப் பயன்படுத்தவும்.
- ஊக டிகோடிங்: டிகோடிங்கை விரைவுபடுத்த ஒரு சிறிய வரைவு மாதிரியை (TinyLlama/Phi-3) ஒரு பெரிய இலக்குடன் (Mistral/Llama 3.1) இணைக்கவும்.
- KV கேச் சுகாதாரம்: பல-டர்ன் சாட்டிற்காக கேச்ச்களை மீண்டும் பயன்படுத்தவும்; முடிந்தவரை நினைவகத்தை முடக்கவும்.
- டோக்கனைசர் ஒழுக்கம்: சுருக்கமான தூண்டுதல்களை விரும்பவும்; அமைப்பு தூண்டுதல்கள் முக்கியம் - அவற்றைச் சுருக்கமாக வைத்திருங்கள்.
- ஸ்மார்ட்டாக குவாண்ட்டைஸ் செய்யவும்: எட்ஜுக்கு 4-பிட்; தரம் பாதுகாக்கும் பம்புக்கு 8-பிட். AWQ vs GPTQ ஐ சோதிக்கவும்.
- கவனத்துடன் தொகுதி: பெரிய தொகுதிகள் உற்பத்தித்திறனை அதிகரிக்கும், ஆனால் TTFT ஐ பாதிக்கலாம்; போக்குவரத்தை SLA மூலம் பிரிக்கவும்.
தரம் vs வேகம் பற்றி என்ன?
ஒற்றை மெட்ரிக் வெற்றி பெறவில்லை. உங்கள் பயன்பாட்டிற்கு நீண்ட வடிவ பகுத்தறிவு தேவைப்பட்டால், ஒரு பெரிய மாதிரி இன்னும் உத்தரவாதம் அளிக்கப்படலாம். ஆனால் பெரும்பாலான ஊடாடும் பணிகளுக்கு - சாட், குறுகிய சுருக்கங்கள், கட்டமைக்கப்பட்ட வெளியீடுகள் - ஐந்து சிறப்பம்சமான மாதிரிகள் GPT-NeoX ஐ விட சிறந்த வேகம்-பயனுள்ள விகிதத்தை வழங்குகின்றன. பணி-மையப்படுத்தப்பட்ட மதிப்பீட்டு தொகுப்பை இயக்கவும், தாமதம் மற்றும் துல்லியம் இரண்டையும் அளவிடவும், அனுபவபூர்வமாக முடிவு செய்யவும்.
சந்தர்ப்பவசமாக: Sider.AI மூலம் வேகமான பணிப்பாய்வுகளை உருவாக்குதல்
நீங்கள் பல திறந்த மூல மாதிரிகளை ஒருங்கிணைத்தால், Sider.AI பரிசோதனை மற்றும் பயன்பாட்டை நெறிப்படுத்த முடியும் என்பதைக் கவனத்தில் கொள்ள வேண்டும். நீங்கள் விரைவாக A/B வெவ்வேறு மாதிரிகளை (எ.கா., Llama 3.1 8B vs Mistral 7B), தாமதம் மற்றும் டோக்கன் புள்ளிவிவரங்களை உள்நுழையலாம், மேலும் பசை குறியீட்டில் மல்யுத்தம் செய்யாமல் RAG அல்லது செயல்பாடு அழைப்பைச் செய்யலாம். உதவியாளர்களை அல்லது உள் கோபைலட்களை அனுப்பும் குழுக்களுக்கு, இது முன்மாதிரி முதல் உற்பத்தி வரையிலான நேரத்தை குறைக்கிறது, அதே நேரத்தில் செலவுகள் மற்றும் தாமதத்தை கட்டுப்பாட்டில் வைத்திருக்கிறது. முக்கிய குறிப்புகள்
- Llama 3.1 8B, Mistral 7B மற்றும் Qwen2 7B போன்ற நவீன 3–8B மாதிரிகள் வழக்கமாக GPT-NeoX ஐ விட வேகமாக இருக்கும், குறிப்பாக vLLM அல்லது TensorRT-LLM இன் கீழ்.
- அதி-சிறிய விருப்பங்கள் (Phi-3 Mini, TinyLlama) உடனடி பதில்களுடன் எட்ஜ் மற்றும் CPU-முதல் பயன்பாடுகளைத் திறக்கின்றன.
- குவாண்ட்டைசேஷன், KV கேச் ட்யூனிங் மற்றும் சுருக்கமான தூண்டுதல்கள் மாதிரி தேர்வைப் போலவே முக்கியம்.
- பணி மற்றும் தாமத பட்ஜெட்டின் மூலம் மாதிரிகளைத் தேர்ந்தெடுத்து, பின்னர் உங்கள் சொந்த மதிப்பீடுகளுடன் சரிபார்க்கவும்.
அடுத்து என்ன செய்வது
- உங்கள் இயல்புநிலை வேகமான அடிப்படையாக Mistral 7B அல்லது Llama 3.1 8B உடன் தொடங்கவும்.
- துரிதப்படுத்தலுக்கான ஊக வரைவு/ரூட்டராக Phi-3 Mini அல்லது TinyLlama ஐ சேர்க்கவும்.
- ஸ்ட்ரீமிங் மூலம் vLLM ஐ உயர்த்தவும்; யதார்த்தமான சுமைகளின் கீழ் TTFT மற்றும் TPS ஐ அளவிடவும்.
- தூண்டுதல் அளவைக் குறைக்க மற்றும் மாதிரியை வீங்கச் செய்யாமல் துல்லியத்தை மேம்படுத்த RAG ஐ அடுக்கு.
- சோதனைகளை ஒருங்கிணைக்கவும் மற்றும் மாதிரிகள் முழுவதும் செயல்திறனைக் கண்காணிக்க Sider.AI ஐக் கவனியுங்கள்.
FAQ
கேள்வி 1: சாட் பயன்பாடுகளுக்கு GPT-NeoX ஐ விட திறந்த மூல மாதிரிகள் எவை வேகமானவை?
Llama 3.1 8B, Mistral 7B, Qwen2 7B, Phi-3 Mini மற்றும் TinyLlama ஆகியவை வழக்கமாக GPT-NeoX ஐ விட குறைவான தாமதத்தை வழங்குகின்றன, குறிப்பாக vLLM அல்லது llama.cpp மற்றும் 4–8 பிட் குவாண்ட்டைசேஷனுடன்.
கேள்வி 2: நுகர்வோர் GPU-களில் Mistral 7B GPT-NeoX ஐ விட வேகமானதா?
ஆம். Mistral 7B இன் சிறிய அளவு மற்றும் மேம்படுத்தப்பட்ட கர்னல்கள் பொதுவாக RTX-வகுப்பு GPU-களில் GPT-NeoX உடன் ஒப்பிடும்போது வினாடிக்கு சிறந்த டோக்கன்களைவும், முதல்-டோக்கனுக்கான குறைந்த நேரத்தையும் தருகின்றன.
கேள்வி 3: CPU அல்லது Mac-ல் வேகமான GPT-NeoX மாற்றீட்டை இயக்க முடியுமா?
Phi-3 Mini மற்றும் TinyLlama ஆகியவை GGUF குவாண்ட்டைசேஷனுடன் llama.cpp வழியாக CPU-கள் மற்றும் Apple Silicon-இல் நன்றாக இயங்குகின்றன, அதே ஹார்டுவேரில் GPT-NeoX ஐ விட மிக வேகமான பதில்களை வழங்குகின்றன.
கேள்வி 4: பல மொழி உதவியாளர்களுக்கு சிறந்த வேகமான மாதிரி எது?
Qwen2 7B Instruct ஆனது வேகம் மற்றும் பல மொழி தரத்தை சமன் செய்கிறது, மொழிகளில் வலுவான துல்லியத்தை பராமரிக்கும் அதே வேளையில் தாமதத்தில் GPT-NeoX ஐ விட அதிகமாக செயல்படுகிறது.
கேள்வி 5: திறந்த மூல மாதிரிகள் மூலம் நான் எப்படி ஒரு நொடிக்கு குறைவான தாமதத்தை பெறுவது?
ஒரு சிறிய மாதிரியைப் பயன்படுத்தவும் (3–8B), 4–8 பிட் குவாண்ட்டைசேஷனை இயக்கவும், தூண்டுதல்களைச் சுருக்கமாக வைத்திருக்கவும், vLLM அல்லது TensorRT-LLM உடன் சேவை செய்யவும். ஒரு சிறிய வரைவு மாதிரியுடன் ஊக டிகோடிங் தாமதத்தை மேலும் குறைக்க முடியும்.