Which open‑source models are faster than GPT‑NeoX for chat apps?

Llama 3.1 8B, Mistral 7B, Qwen2 7B, Phi‑3 Mini, and TinyLlama typically deliver lower latency than GPT‑NeoX, especially with vLLM or llama.cpp and 4–8 bit quantization.

Is Mistral 7B faster than GPT‑NeoX on consumer GPUs?

Yes. Mistral 7B’s smaller size and optimized kernels generally yield better tokens per second and lower time‑to‑first‑token on RTX‑class GPUs compared to GPT‑NeoX.

Can I run a faster GPT‑NeoX alternative on CPU or Mac?

Phi‑3 Mini and TinyLlama run well on CPUs and Apple Silicon via llama.cpp with GGUF quantization, offering much faster responses than GPT‑NeoX on the same hardware.

What’s the best fast model for multilingual assistants?

Qwen2 7B Instruct balances speed and multilingual quality, often outperforming GPT‑NeoX in latency while maintaining strong accuracy across languages.

How do I get sub‑second latency with open‑source models?

Use a compact model (3–8B), enable 4–8 bit quantization, keep prompts short, and serve with vLLM or TensorRT‑LLM. Speculative decoding with a tiny draft model can cut latency further.

GPT‑NeoX-ஐ விட வேகமான முதல் 5 திறந்த மூல AI மாதிரிகள்

உண்மையில் நீங்கள் வெற்றி பெறக்கூடிய வேகப் பந்தயம்

விரைவான AI அம்சங்களை அனுப்ப உங்களுக்கு அதிகப்படியான பட்ஜெட் தேவையில்லை. நீங்கள் GPT-NeoX-ஐ பயன்படுத்த முயற்சி செய்து தாமதத்தை அடைந்திருந்தால், நீங்கள் மட்டும் தனியாக இல்லை: 20B-பராமீட்டர் வகுப்பு மாதிரிகள் பொதுவான GPU-களில் சுமையாகவும், CPU-களில் மந்தமாகவும் உணரலாம். நல்ல செய்தி என்னவென்றால்? புதிய, திறந்த மூல AI மாதிரிகள் போட்டியிடும் தரத்துடன் வேகமான பதில்களை வழங்க முடியும் - குறிப்பாக சாட், ஏஜென்ட்கள், மீட்டெடுப்பு-உதவி உருவாக்கம் (RAG) மற்றும் கோடிங் கோபைலட்கள் போன்றவற்றுக்கு.

இந்த வழிகாட்டி GPT-NeoX-ஐ விட வேகமான ஐந்து திறந்த மூல AI மாதிரிகளை எடுத்துக்காட்டுகிறது, அவை ஏன் விரைவாக உள்ளன என்பதை விளக்குகிறது, மேலும் ஒவ்வொன்றும் எங்கு சிறப்பாக செயல்படுகிறது என்பதைக் காட்டுகிறது. நாங்கள் நடைமுறைத் தேர்வுகளுக்கு முக்கியத்துவம் கொடுப்போம்: டோக்கனைசர் திறன், குவாண்ட்டைசேஷன் ஆதரவு, KV-கேச் செயல்திறன் மற்றும் வலுவான அனுமான அடுக்குகள் (vLLM, TensorRT-LLM, llama.cpp).

ஸ்டைல் குறிப்பு: நடைமுறை மற்றும் நேரடியானது. நாங்கள் பரிந்துரைக்கும் மாதிரிகளைப் போலவே வேகமாகவும் செயல்படுவோம்.

"GPT-NeoX ஐ விட வேகமானது" ஏன் முக்கியமானது

குறைந்த தாமதம்: ஒரு நொடிக்குள் முதல் டோக்கன் வருவது இயற்கையான சாட் மற்றும் சிறந்த UX ஐ குறிக்கிறது.

அதிக உற்பத்தித்திறன்: டோக்கன்களைச் செகண்டுக்கு அதிகமாகப் பிழிவதன் மூலம் ஒரு GPU-க்கு அதிக பயனர்களுக்குச் சேவை செய்யுங்கள்.

மலிவான உள்கட்டமைப்பு: சிறிய மாதிரிகள் அல்லது சிறந்த கர்னல்கள் ஒரே டிராஃபிக்கிற்கு குறைவான GPU-களைக் குறிக்கின்றன.

எட்ஜிற்குப் பொருத்தமானது: 4-பிட் குவாண்ட்டைசேஷனுடன் CPU/Metal அனுமானம் சாத்தியமாகும்.

GPT-NeoX திறந்த மொழி மாதிரியத்தில் ஒரு மைல்கல்லாக இருந்து வருகிறது, ஆனால் அதன் அளவு (பெரும்பாலும் 20B வகைகள்) மற்றும் பழைய கர்னல்கள் தடையாக இருக்கலாம். இன்றைய சிறிய கட்டமைப்புகள், தொகுக்கப்பட்ட-வினவல் கவனம் (GQA), ஸ்லைடிங் விண்டோ கவனம் மற்றும் மிகவும் மேம்படுத்தப்பட்ட ரன்டைம்கள் புதிய விருப்பங்களுக்கு சாதகமாக உள்ளன.

"வேகமானது" என்பதை நாங்கள் எவ்வாறு மதிப்பிட்டோம்

வேகம் என்பது ஒரு எண் அல்ல. நாங்கள் கவனம் செலுத்துவது:

முதல் டோக்கனுக்கான நேரம் (TTFT): உணரப்படும் பதிலளிப்பு.

வினாடிக்கு டோக்கன்கள் (TPS): நிலையான டிகோட் வேகம்.

நினைவக அளவு மற்றும் குவாண்ட்டைசேஷன்: எட்ஜ் மற்றும் குறைந்த VRAM GPU-களுக்கான 4-பிட்/8-பிட் ஆதரவு.

சேவை அடுக்கு: vLLM, TensorRT-LLM, llama.cpp மற்றும் திறமையான KV கேச் உடன் இணக்கத்தன்மை.

வரிசை நீளம், தொகுதி அளவு, GPU வகை (A100 vs நுகர்வோர் RTX) மற்றும் கர்னல் தேர்வுகள் ஆகியவற்றைப் பொறுத்து உங்கள் பயன்பாடு வேறுபடும். இருப்பினும், பொதுவான அமைப்புகளில், பின்வரும் மாதிரிகள் பல பணிகளுக்கு தரமானதாக இருக்கும் அதே வேளையில் GPT-NeoX ஐ விட தொடர்ந்து வேகமாக இயங்குகின்றன.

GPT-NeoX ஐ விட வேகமான முதல் 5 திறந்த மூல AI மாதிரிகள்

1) Llama 3.1 8B Instruct (Meta)

இது ஏன் வேகமானது: நவீன கவனம் (GQA உடன்), திறமையான டோக்கனைசர் மற்றும் vLLM, llama.cpp (GGUF) மற்றும் TensorRT-LLM முழுவதும் சிறந்த ஆதரவு. 8B அளவு ஒரு 24GB GPU-வில் வேகத்தை உருவாக்குகிறது; குவாண்ட்டைஸ் செய்யப்பட்ட உருவாக்கங்கள் நுகர்வோர் GPU-கள் மற்றும் CPU-களில் கூட இயங்கும்.

இது எங்கு சிறந்து விளங்குகிறது: பொதுவான சாட், குறுகிய மற்றும் நடுத்தர சூழல்களுடன் RAG, இலகுரக ஏஜென்ட்கள் மற்றும் தயாரிப்பு உதவியாளர்கள். உறுதியான அறிவுறுத்தல்-பின்பற்றல்.

உண்மையான எட்ஜ்: M-சீரிஸ் Mac அல்லது ஒரு சாதாரண CPU சர்வரில் llama.cpp வழியாக 4-பிட் GGUF உடன், Llama 3.1 8B வேகமான ஊடாடும் தாமதங்களை வழங்க முடியும், அங்கு GPT-NeoX ஊர்ந்து செல்லும்.

இதனுடன் இணைக்கவும்: பல-பயனர்களுக்கான சேவையகத்திற்கு vLLM அல்லது எட்ஜ் பயன்பாட்டிற்கு llama.cpp.

2) Mistral 7B Instruct (Mistral AI)

இது ஏன் வேகமானது: 7B அளவு, வலுவான டோக்கனைசர் திறன் மற்றும் பிரபலமான ரன்டைம்களில் உயர்தர கர்னல்கள். Mistral-ன் கட்டமைப்பு மற்றும் பயிற்சி ஒரு சிறந்த வேகம்/தரம் சுயவிவரத்தை தருகிறது.

இது எங்கு சிறந்து விளங்குகிறது: குறுகிய வடிவ பகுத்தறிவு, கோட் குறிப்புகள், அறிவு உதவியாளர்கள் மற்றும் பல மொழி குறுகிய பதில்கள். பயன்பாட்டு பணிகளுக்கு அதன் அளவை விட அதிகமாகச் செயல்படுகிறது.

உண்மையான எட்ஜ்: 4-பிட்டில் உள்ள Mistral 7B நுகர்வோர் RTX கார்டுகளில் சிறந்த TPS-ஐ அடைகிறது; சாட் UI-கள் உடனடியாக உணர TTFT போதுமானதாக உள்ளது. இது செலவு குறைந்த உற்பத்திக்கு ஒரு முக்கிய அடிப்படையாகும்.

இதனுடன் இணைக்கவும்: அதிக உற்பத்தித்திறனுக்காக vLLM + PagedAttention; மொபைல்/எட்ஜ்க்கு llama.cpp.

3) Phi-3 Mini 3.8B (Microsoft)

இது ஏன் வேகமானது: சிறியது ஆனால் வலிமையானது. 3.8B அளவுருக்களில், Phi-3 Mini CPU-கள் மற்றும் ஒருங்கிணைந்த GPU-களில் ஆக்கிரமிப்பு குவாண்ட்டைசேஷனுடன் அலறுகிறது, அதே நேரத்தில் ஒத்திசைவான வெளியீடுகளை பராமரிக்கிறது.

இது எங்கு சிறந்து விளங்குகிறது: உட்பொதிக்கப்பட்ட ஏஜென்ட்கள், சாதனத்தின் சுருக்கம், ஆஃப்லைன் நோட் உதவியாளர்கள் மற்றும் குறைந்த கணக்கீட்டு RAG. நீங்கள் மூல திறனை விட தாமதம் மற்றும் செலவுக்கு முன்னுரிமை அளிக்க வேண்டும் போது இது சிறந்தது.

உண்மையான எட்ஜ்: முதல் டோக்கன் தாமதம் பொதுவான ஹார்டுவேரில் உடனடியாக உணர முடியும். GPT-NeoX ஐ விட 2-3 மடங்கு உற்பத்தித்திறனைப் பார்ப்பீர்கள்.

இதனுடன் இணைக்கவும்: விண்டோஸிற்கான ONNX Runtime / DirectML, கிராஸ்-பிளாட்ஃபார்மிற்காக llama.cpp.

4) Qwen2 7B Instruct (Alibaba)

இது ஏன் வேகமானது: வலுவான பல மொழி ஆதரவு மற்றும் நன்கு மேம்படுத்தப்பட்ட அனுமான கிராஃப்களுடன் கூடிய திறமையான கட்டமைப்பு. vLLM மற்றும் TensorRT-LLM இல் வலுவான கருவி.

இது எங்கு சிறந்து விளங்குகிறது: பல மொழி சாட், இணைய கருவிகள், செயல்பாடு அழைத்தல் மற்றும் இணையவழி-பாணி அறிவு பணிகள். மொழிகள் முழுவதும் வேகம் மற்றும் துல்லியத்தின் சிறந்த சமநிலை.

உண்மையான எட்ஜ்: KV-கேச் ஆஃப்லோடிங் மற்றும் 4-பிட் குவாண்ட்டைசேஷனுடன், Qwen2 7B பெரும்பாலான ஆப் ஓட்டங்களில் பதிலளிக்கும் தரத்தை பாதுகாக்கும் போது GPT-NeoX ஐ விட அதிக தொகுதி உற்பத்தித்திறனை தக்க வைத்துக் கொள்கிறது.

இதனுடன் இணைக்கவும்: NVIDIA அடுக்குகளுக்கான TensorRT-LLM; பல-மாடல் சேவையகத்திற்கு vLLM.

5) TinyLlama 1.1B Chat (Community)

இது ஏன் வேகமானது: இது சிறியது - அதுதான் குறிக்கோள். 1.1B அளவுருக்கள் மற்றும் சிறந்த GGUF ஆதரவுடன், TinyLlama நடைமுறையில் எதிலும் இயங்குகிறது.

இது எங்கு சிறந்து விளங்குகிறது: அதி-குறைந்த தாமத தூண்டுதல்கள், வகைப்பாடு, டெம்ப்ளேட் பதில்கள், ஸ்ட்ரீமிங் UI குறிப்புகள் மற்றும் ஏஜென்ட் கிராஃப்களில் வாட்ச் டாக்/கோ-பைலட் பணிகள்.

உண்மையான எட்ஜ்: மடிக்கணினி CPU-களில் 100ms க்கும் குறைவான பதில்கள் பொதுவானவை. அதிக மாடலை அழைப்பதற்கு முன் ரூட்டிங், கார்ட்ரெயில்கள் அல்லது முன்-வடிகட்டிகளுக்கு ஏற்றது.

இதனுடன் இணைக்கவும்: எடை குறைந்த உள்ளூர் அனுமானத்திற்காக llama.cpp; துல்லியத்திற்காக மறுவரிசைப்படுத்துதல் + RAG உடன் இணைக்கவும்.

உங்கள் அடுக்குக்கு ஏற்றதாக இருக்கும் கௌரவமான குறிப்புகள்

Llama 3.1 70B Instruct: GPT-NeoX ஐ விட சிறியது அல்ல, ஆனால் சிறந்த கர்னல்கள் மற்றும் கட்டமைப்பு காரணமாக, இது உயர்-இறுதி GPU-களில் ஒரு யூனிட் திறனுக்கு சிறந்த TPS ஐ வழங்க முடியும். நியாயமான வேகத்துடன் அதிக தரம் தேவைப்பட்டால், இது கட்டாயமானது.

Mixtral 8x7B: தொகுதி அளவுகள் சரிசெய்யப்படும்போது வலுவான தரம் மற்றும் நல்ல உற்பத்தித்திறன் கொண்ட நிபுணர்களின் கலவை மாதிரி; செயல்படுத்தல் பற்றாக்குறை தாமதத்திற்கு உதவக்கூடும், ஆனால் நினைவக அலைவரிசை கவனமாக நிர்வகிக்கப்பட வேண்டும்.

Gemma 2 9B: வலுவான அனுமான ஆதரவுடன் நல்ல செயல்திறன்/அளவு சமநிலை; vLLM-கீழ் மிகவும் வேகமாக இருக்க முடியும்.

ஒரு பார்வையில் விரைவான ஒப்பீடு

குறைந்தபட்ச ஹார்டுவேரில் வேகமான முதல்-டோக்கன்: Phi-3 Mini, TinyLlama.

வேகம் மற்றும் திறனின் சிறந்த சமநிலை: Llama 3.1 8B, Mistral 7B, Qwen2 7B.

பெரிய அளவில் சேவை செய்ய எளிதானது (சூழலியல்/கருவி): vLLM/TensorRT-LLM மூலம் Llama 3.1, Mistral 7B, Qwen2 7B.

பல மொழிக்கு சிறந்தது: Qwen2 7B.

எட்ஜ்/ஆஃப்லைனுக்கு சிறந்தது: Phi-3 Mini, TinyLlama.

ஐந்தும் வழக்கமாக GPT-NeoX ஐ விட சாட்-ஸ்டைல் மற்றும் RAG பயன்பாட்டிற்கு வேகமாக இருக்கும், குறிப்பாக குவாண்ட்டைஸ் செய்யப்பட்டு நவீன ரன்டைம்ஸ் மூலம் வழங்கப்பட்டால்.

நடைமுறை பயன்பாட்டு முறைகள் (நகலெடுக்க ஏற்றது)

உதாரணம்: vLLM உடன் வேகமான சாட் API (Llama 3.1 8B)

ஹார்டுவேர்: 1× RTX 3090/4090 அல்லது A10/A100

கட்டளை ஸ்கெட்ச்:

டென்சார் இணைத் தன்மை 1 ஆக அமைக்கப்பட்டு vLLM ஐத் தொடங்கவும், PagedAttention ஐ இயக்கவும், KV கேச் முன்னதாக ஒதுக்கீடு செய்யவும்.

FP16 அல்லது INT8 ஐப் பயன்படுத்தவும்; ஏற்றுக்கொள்ளக்கூடிய தர இழப்புடன் 4-பிட்டிற்கு AWQ அல்லது GPTQ ஐக் கவனியுங்கள்.

உதவிக்குறிப்புகள்:

இறுக்கமான தாமதங்களுக்கு max_new_tokens பழமைவாதமாக வைத்திருங்கள் (256–512).

தொகுதி-முதல் திட்டமிடலை இயக்கவும்; உங்கள் UI-க்கு டோக்கன்களை உடனடியாக ஸ்ட்ரீம் செய்யவும்.

உதாரணம்: macOS இல் எட்ஜ் சுருக்கம் (llama.cpp வழியாக Phi-3 Mini)

Q4_K_M அல்லது Q5_K_M GGUF க்கு குவாண்ட்டைஸ் செய்யவும்.

செயல்திறன் மையத்திற்கு 4–8 நூல்களைப் பயன்படுத்தவும்; வேகமான கேச் ஹிட்களுக்கு குறைந்த சூழலை அமைக்கவும் (1k–2k டோக்கன்கள்).

TTFT ஐ குறைவாக வைத்திருக்க வெளியீட்டை ஸ்ட்ரீம் செய்யவும்.

உதாரணம்: பல மொழி உதவியாளர் (Qwen2 7B + TensorRT-LLM)

FP8 அல்லது INT8 அளவுத்திருத்தத்துடன் ஒரு எஞ்சினை உருவாக்கவும்.

நீண்ட ஆவணங்களுக்கு KV கேச் மறுபயன்பாடு மற்றும் ஸ்லைடிங் விண்டோ கவனத்தை இயக்கவும்.

கோரிக்கைகளை ஆக்ரோஷமாகத் தொகுக்கவும்; உச்ச TPS-க்கு ஊக டிகோடிங்கை நம்புங்கள்.

இந்த மாதிரிகள் ஏன் GPT-NeoX ஐ விட அதிகமாக உள்ளன

அளவுரு திறன்: 3–8B நவீன கட்டமைப்புகள் இப்போது பல நடைமுறை பணிகளில் பழைய 20B மாதிரிகளை மிஞ்சுகின்றன அல்லது விஞ்சுகின்றன.

மேம்படுத்தப்பட்ட கவனம்: GQA மற்றும் ஸ்லைடிங் விண்டோக்கள் கணக்கீடு மற்றும் நினைவக போக்குவரத்தை குறைக்கின்றன.

சிறந்த ரன்டைம்கள்: vLLM இன் PagedAttention, TensorRT-LLM இணைந்த கர்னல்கள், llama.cpp CPU/Metal மேம்படுத்தல்கள்.

குவாண்ட்டைசேஷன்-முதல் கலாச்சாரம்: சமூக GGUF, AWQ, GPTQ மற்றும் bitsandbytes 4–8 பிட் வழக்கமாக்குகின்றன.

எளிமையாகச் சொன்னால்: சுற்றுச்சூழல் முன்னேறியது. GPT-NeoX ஆராய்ச்சி மற்றும் வரலாற்று அடிப்படைக்கு மதிப்புமிக்கதாக உள்ளது, ஆனால் தயாரிப்பு தாமதத்திற்கு இலகுவான மாதிரிகள் வெற்றி பெறுகின்றன.

பயன்பாட்டு வழக்குகள் மற்றும் மாதிரி பொருத்தம்

அறிவு தளங்களுக்கான RAG சாட்போட்கள்: Llama 3.1 8B அல்லது Mistral 7B + மறுவரிசைப்படுத்துதல்; மீட்டெடுப்புக்குப் பிறகு ஒப்பிடக்கூடிய தரத்துடன் GPT-NeoX உடன் வேகமான வேகத்தை எதிர்பார்க்கலாம்.

வாடிக்கையாளர் ஆதரவு திசைதிருப்பல்: பல மொழி கேள்விகளுக்கு Qwen2 7B; ஏககாலத்திற்காக குவாண்ட்டைஸ் செய்யவும், டெம்ப்ளேட்கள் மூலம் பதில்களை தெளிவாக வைத்திருங்கள்.

சாதனத்தில் கோபைலட்கள்: குறிப்புகள், மின்னஞ்சல் வரைவுகள் மற்றும் சரிபார்ப்புப் பட்டியல் உருவாக்கத்திற்கான Phi-3 Mini; உள்ளூர் சொற்பொருள் தேடலுக்கு ஒரு சிறிய உட்பொதித்தல் மாதிரியுடன் இணைக்கவும்.

ஏஜென்ட் கிராஃப்கள்: ஒரு ரூட்டர், வகைப்பாடு தலை அல்லது கார்ட்ரெய்லாக TinyLlama; நம்பிக்கை குறைவாக இருக்கும்போது மட்டுமே ஒரு பெரிய மாதிரியை அழைக்கவும்.

இன்னும் அதிகமான வேகத்திற்காக ட்யூனிங்

சூழல் நீளத்தை வரம்பிடவும்: நீண்ட தூண்டுதல்கள் கணக்கீட்டை வெடிக்கச் செய்கின்றன; சாளரங்களை சிறியதாக வைத்திருக்க RAG ஐப் பயன்படுத்தவும்.

ஊக டிகோடிங்: டிகோடிங்கை விரைவுபடுத்த ஒரு சிறிய வரைவு மாதிரியை (TinyLlama/Phi-3) ஒரு பெரிய இலக்குடன் (Mistral/Llama 3.1) இணைக்கவும்.

KV கேச் சுகாதாரம்: பல-டர்ன் சாட்டிற்காக கேச்ச்களை மீண்டும் பயன்படுத்தவும்; முடிந்தவரை நினைவகத்தை முடக்கவும்.

டோக்கனைசர் ஒழுக்கம்: சுருக்கமான தூண்டுதல்களை விரும்பவும்; அமைப்பு தூண்டுதல்கள் முக்கியம் - அவற்றைச் சுருக்கமாக வைத்திருங்கள்.

ஸ்மார்ட்டாக குவாண்ட்டைஸ் செய்யவும்: எட்ஜுக்கு 4-பிட்; தரம் பாதுகாக்கும் பம்புக்கு 8-பிட். AWQ vs GPTQ ஐ சோதிக்கவும்.

கவனத்துடன் தொகுதி: பெரிய தொகுதிகள் உற்பத்தித்திறனை அதிகரிக்கும், ஆனால் TTFT ஐ பாதிக்கலாம்; போக்குவரத்தை SLA மூலம் பிரிக்கவும்.

தரம் vs வேகம் பற்றி என்ன?

ஒற்றை மெட்ரிக் வெற்றி பெறவில்லை. உங்கள் பயன்பாட்டிற்கு நீண்ட வடிவ பகுத்தறிவு தேவைப்பட்டால், ஒரு பெரிய மாதிரி இன்னும் உத்தரவாதம் அளிக்கப்படலாம். ஆனால் பெரும்பாலான ஊடாடும் பணிகளுக்கு - சாட், குறுகிய சுருக்கங்கள், கட்டமைக்கப்பட்ட வெளியீடுகள் - ஐந்து சிறப்பம்சமான மாதிரிகள் GPT-NeoX ஐ விட சிறந்த வேகம்-பயனுள்ள விகிதத்தை வழங்குகின்றன. பணி-மையப்படுத்தப்பட்ட மதிப்பீட்டு தொகுப்பை இயக்கவும், தாமதம் மற்றும் துல்லியம் இரண்டையும் அளவிடவும், அனுபவபூர்வமாக முடிவு செய்யவும்.

சந்தர்ப்பவசமாக: Sider.AI மூலம் வேகமான பணிப்பாய்வுகளை உருவாக்குதல்

நீங்கள் பல திறந்த மூல மாதிரிகளை ஒருங்கிணைத்தால், Sider.AI பரிசோதனை மற்றும் பயன்பாட்டை நெறிப்படுத்த முடியும் என்பதைக் கவனத்தில் கொள்ள வேண்டும். நீங்கள் விரைவாக A/B வெவ்வேறு மாதிரிகளை (எ.கா., Llama 3.1 8B vs Mistral 7B), தாமதம் மற்றும் டோக்கன் புள்ளிவிவரங்களை உள்நுழையலாம், மேலும் பசை குறியீட்டில் மல்யுத்தம் செய்யாமல் RAG அல்லது செயல்பாடு அழைப்பைச் செய்யலாம். உதவியாளர்களை அல்லது உள் கோபைலட்களை அனுப்பும் குழுக்களுக்கு, இது முன்மாதிரி முதல் உற்பத்தி வரையிலான நேரத்தை குறைக்கிறது, அதே நேரத்தில் செலவுகள் மற்றும் தாமதத்தை கட்டுப்பாட்டில் வைத்திருக்கிறது.

முக்கிய குறிப்புகள்

Llama 3.1 8B, Mistral 7B மற்றும் Qwen2 7B போன்ற நவீன 3–8B மாதிரிகள் வழக்கமாக GPT-NeoX ஐ விட வேகமாக இருக்கும், குறிப்பாக vLLM அல்லது TensorRT-LLM இன் கீழ்.

அதி-சிறிய விருப்பங்கள் (Phi-3 Mini, TinyLlama) உடனடி பதில்களுடன் எட்ஜ் மற்றும் CPU-முதல் பயன்பாடுகளைத் திறக்கின்றன.

குவாண்ட்டைசேஷன், KV கேச் ட்யூனிங் மற்றும் சுருக்கமான தூண்டுதல்கள் மாதிரி தேர்வைப் போலவே முக்கியம்.

பணி மற்றும் தாமத பட்ஜெட்டின் மூலம் மாதிரிகளைத் தேர்ந்தெடுத்து, பின்னர் உங்கள் சொந்த மதிப்பீடுகளுடன் சரிபார்க்கவும்.

அடுத்து என்ன செய்வது

உங்கள் இயல்புநிலை வேகமான அடிப்படையாக Mistral 7B அல்லது Llama 3.1 8B உடன் தொடங்கவும்.

துரிதப்படுத்தலுக்கான ஊக வரைவு/ரூட்டராக Phi-3 Mini அல்லது TinyLlama ஐ சேர்க்கவும்.

ஸ்ட்ரீமிங் மூலம் vLLM ஐ உயர்த்தவும்; யதார்த்தமான சுமைகளின் கீழ் TTFT மற்றும் TPS ஐ அளவிடவும்.

தூண்டுதல் அளவைக் குறைக்க மற்றும் மாதிரியை வீங்கச் செய்யாமல் துல்லியத்தை மேம்படுத்த RAG ஐ அடுக்கு.

சோதனைகளை ஒருங்கிணைக்கவும் மற்றும் மாதிரிகள் முழுவதும் செயல்திறனைக் கண்காணிக்க Sider.AI ஐக் கவனியுங்கள்.

FAQ

கேள்வி 1: சாட் பயன்பாடுகளுக்கு GPT-NeoX ஐ விட திறந்த மூல மாதிரிகள் எவை வேகமானவை? Llama 3.1 8B, Mistral 7B, Qwen2 7B, Phi-3 Mini மற்றும் TinyLlama ஆகியவை வழக்கமாக GPT-NeoX ஐ விட குறைவான தாமதத்தை வழங்குகின்றன, குறிப்பாக vLLM அல்லது llama.cpp மற்றும் 4–8 பிட் குவாண்ட்டைசேஷனுடன்.

கேள்வி 2: நுகர்வோர் GPU-களில் Mistral 7B GPT-NeoX ஐ விட வேகமானதா? ஆம். Mistral 7B இன் சிறிய அளவு மற்றும் மேம்படுத்தப்பட்ட கர்னல்கள் பொதுவாக RTX-வகுப்பு GPU-களில் GPT-NeoX உடன் ஒப்பிடும்போது வினாடிக்கு சிறந்த டோக்கன்களைவும், முதல்-டோக்கனுக்கான குறைந்த நேரத்தையும் தருகின்றன.

கேள்வி 3: CPU அல்லது Mac-ல் வேகமான GPT-NeoX மாற்றீட்டை இயக்க முடியுமா? Phi-3 Mini மற்றும் TinyLlama ஆகியவை GGUF குவாண்ட்டைசேஷனுடன் llama.cpp வழியாக CPU-கள் மற்றும் Apple Silicon-இல் நன்றாக இயங்குகின்றன, அதே ஹார்டுவேரில் GPT-NeoX ஐ விட மிக வேகமான பதில்களை வழங்குகின்றன.

கேள்வி 4: பல மொழி உதவியாளர்களுக்கு சிறந்த வேகமான மாதிரி எது? Qwen2 7B Instruct ஆனது வேகம் மற்றும் பல மொழி தரத்தை சமன் செய்கிறது, மொழிகளில் வலுவான துல்லியத்தை பராமரிக்கும் அதே வேளையில் தாமதத்தில் GPT-NeoX ஐ விட அதிகமாக செயல்படுகிறது.

கேள்வி 5: திறந்த மூல மாதிரிகள் மூலம் நான் எப்படி ஒரு நொடிக்கு குறைவான தாமதத்தை பெறுவது? ஒரு சிறிய மாதிரியைப் பயன்படுத்தவும் (3–8B), 4–8 பிட் குவாண்ட்டைசேஷனை இயக்கவும், தூண்டுதல்களைச் சுருக்கமாக வைத்திருக்கவும், vLLM அல்லது TensorRT-LLM உடன் சேவை செய்யவும். ஒரு சிறிய வரைவு மாதிரியுடன் ஊக டிகோடிங் தாமதத்தை மேலும் குறைக்க முடியும்.