Which open‑source models are faster than GPT‑NeoX for chat apps?

Llama 3.1 8B, Mistral 7B, Qwen2 7B, Phi‑3 Mini, and TinyLlama typically deliver lower latency than GPT‑NeoX, especially with vLLM or llama.cpp and 4–8 bit quantization.

Is Mistral 7B faster than GPT‑NeoX on consumer GPUs?

Yes. Mistral 7B’s smaller size and optimized kernels generally yield better tokens per second and lower time‑to‑first‑token on RTX‑class GPUs compared to GPT‑NeoX.

Can I run a faster GPT‑NeoX alternative on CPU or Mac?

Phi‑3 Mini and TinyLlama run well on CPUs and Apple Silicon via llama.cpp with GGUF quantization, offering much faster responses than GPT‑NeoX on the same hardware.

What’s the best fast model for multilingual assistants?

Qwen2 7B Instruct balances speed and multilingual quality, often outperforming GPT‑NeoX in latency while maintaining strong accuracy across languages.

How do I get sub‑second latency with open‑source models?

Use a compact model (3–8B), enable 4–8 bit quantization, keep prompts short, and serve with vLLM or TensorRT‑LLM. Speculative decoding with a tiny draft model can cut latency further.

GPT‑NeoX ಗಿಂತ ವೇಗವಾದ ಟಾಪ್ 5 ಓಪನ್-ಸೋರ್ಸ್ AI ಮಾದರಿಗಳು

ನಿಜವಾಗಿಯೂ ನೀವು ಗೆಲ್ಲಬಹುದಾದ ಒಂದು ವೇಗದ ಸ್ಪರ್ಧೆ

ಕ್ಷಿಪ್ರ AI ಫೀಚರ್‌ಗಳನ್ನು ರವಾನಿಸಲು ನಿಮಗೆ ಅತಿದೊಡ್ಡ ಬಜೆಟ್ ಅಗತ್ಯವಿಲ್ಲ. ನೀವು GPT‑NeoX ಅನ್ನು ನಿಯೋಜಿಸಲು ಪ್ರಯತ್ನಿಸಿ ಲೇಟೆನ್ಸಿ ಮಿತಿಗಳನ್ನು ತಲುಪಿದ್ದರೆ, ನೀವು ಒಬ್ಬಂಟಿಯಲ್ಲ: 20B ಪ್ಯಾರಾಮೀಟರ್ ವರ್ಗದ ಮಾದರಿಗಳು ಸಾಮಾನ್ಯ GPUಗಳಲ್ಲಿ ಭಾರವೆನಿಸಬಹುದು ಮತ್ತು CPUಗಳಲ್ಲಿ ನಿಧಾನವಾಗಬಹುದು. ಒಳ್ಳೆಯ ಸುದ್ದಿ ಏನೆಂದರೆ? ಹೊಸ ಅಲೆಗಳ ತೆಳುವಾದ, ಮುಕ್ತ-ಮೂಲದ AI ಮಾದರಿಗಳು ಸ್ಪರ್ಧಾತ್ಮಕ ಗುಣಮಟ್ಟದೊಂದಿಗೆ ವೇಗವಾಗಿ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ನೀಡಬಲ್ಲವು—ವಿಶೇಷವಾಗಿ ಚಾಟ್, ಏಜೆಂಟ್‌ಗಳು, ರಿಟ್ರಿವಲ್-ಆಗ್ಮೆಂಟೆಡ್ ಜನರೇಷನ್ (RAG), ಮತ್ತು ಕೋಡಿಂಗ್ ಕೋಪೈಲಟ್‌ಗಳಿಗೆ.

ಈ ಮಾರ್ಗದರ್ಶಿಯು ನೈಜ-ಪ್ರಪಂಚದ ಸನ್ನಿವೇಶಗಳಲ್ಲಿ GPT‑NeoX ಗಿಂತ ವೇಗವಾಗಿರುವ ಐದು ಮುಕ್ತ-ಮೂಲದ AI ಮಾದರಿಗಳನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ, ಅವುಗಳು ಏಕೆ ವೇಗವಾಗಿವೆ ಎಂದು ವಿವರಿಸುತ್ತದೆ ಮತ್ತು ಪ್ರತಿಯೊಂದೂ ಎಲ್ಲಿ ಪ್ರಕಾಶಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ತೋರಿಸುತ್ತದೆ. ನಾವು ಪ್ರಾಯೋಗಿಕ ಆಯ್ಕೆಗಳ ಕಡೆಗೆ ಗಮನಹರಿಸುತ್ತೇವೆ: ಟೋಕನೈಜರ್ ದಕ್ಷತೆ, ಕ್ವಾಂಟೈಸೇಶನ್ ಬೆಂಬಲ, KV‑ಕ್ಯಾಶ್ ಕಾರ್ಯಕ್ಷಮತೆ ಮತ್ತು ಬಲವಾದ ಇನ್‌ಫರೆನ್ಸ್ ಸ್ಟ್ಯಾಕ್‌ಗಳು (vLLM, TensorRT‑LLM, llama.cpp).

ಶೈಲಿಯ ಟಿಪ್ಪಣಿ: ಪ್ರಾಯೋಗಿಕ & ನೇರ. ನಾವು ಶಿಫಾರಸು ಮಾಡುವ ಮಾದರಿಗಳಂತೆ ವೇಗವಾಗಿ ಚಲಿಸುತ್ತೇವೆ.

"GPT‑NeoX ಗಿಂತ ವೇಗವಾಗಿ" ಏಕೆ ಮುಖ್ಯ

ಕಡಿಮೆ ಲೇಟೆನ್ಸಿ: ಉಪ-ಸೆಕೆಂಡಿನ ಮೊದಲ ಟೋಕನ್ ಎಂದರೆ ಹೆಚ್ಚು ನೈಸರ್ಗಿಕ ಚಾಟ್ ಮತ್ತು ಉತ್ತಮ UX.

ಹೆಚ್ಚಿನ ಥ್ರೂಪುಟ್: ಟೋಕನ್‌ಗಳನ್ನು ಹಿಂಡುವ ಮೂಲಕ GPU ಗೆ ಹೆಚ್ಚಿನ ಬಳಕೆದಾರರಿಗೆ ಸೇವೆ ನೀಡಿ/ಸೆಕೆಂಡು.

ಕಡಿಮೆ ಇನ್ಫ್ರಾ: ಸಣ್ಣ ಮಾದರಿಗಳು ಅಥವಾ ಉತ್ತಮ ಕರ್ನಲ್‌ಗಳು ಒಂದೇ ಟ್ರಾಫಿಕ್‌ಗೆ ಕಡಿಮೆ GPU ಗಳನ್ನು ಅರ್ಥೈಸುತ್ತವೆ.

ಎಡ್ಜ್‌ಗೆ ಉತ್ತಮ ಫಿಟ್: 4-ಬಿಟ್ ಕ್ವಾಂಟೈಸೇಶನ್‌ನೊಂದಿಗೆ CPU/ಮೆಟಲ್ ಇನ್‌ಫರೆನ್ಸ್ ಕಾರ್ಯಸಾಧ್ಯವಾಗಿದೆ.

GPT‑NeoX ಮುಕ್ತ ಭಾಷಾ ಮಾಡೆಲಿಂಗ್‌ನಲ್ಲಿ ಒಂದು ಮೈಲಿಗಲ್ಲಾಗಿದೆ, ಆದರೆ ಅದರ ಗಾತ್ರ (ಸಾಮಾನ್ಯವಾಗಿ 20B ರೂಪಾಂತರಗಳು) ಮತ್ತು ಹಳೆಯ ಕರ್ನಲ್‌ಗಳು ಪ್ರತಿಕೂಲ ಪರಿಣಾಮಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು. ಇಂದಿನ ಕಾಂಪ್ಯಾಕ್ಟ್ ಆರ್ಕಿಟೆಕ್ಚರ್‌ಗಳು, ಗುಂಪಿನ ಪ್ರಶ್ನೆ ಗಮನ (GQA), ಸ್ಲೈಡಿಂಗ್ ವಿಂಡೋ ಗಮನ ಮತ್ತು ಹೆಚ್ಚು ಆಪ್ಟಿಮೈಸ್ಡ್ ರನ್‌ಟೈಮ್‌ಗಳು ಹೊಸ ಆಯ್ಕೆಗಳ ಕಡೆಗೆ ಟೇಬಲ್ ಅನ್ನು ತಿರುಗಿಸುತ್ತವೆ.

ನಾವು "ವೇಗವಾಗಿ" ಎಂದು ಹೇಗೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡಿದ್ದೇವೆ

ವೇಗವು ಒಂದೇ ಸಂಖ್ಯೆಯಲ್ಲ. ನಾವು ಇದರ ಮೇಲೆ ಗಮನಹರಿಸುತ್ತೇವೆ:

ಮೊದಲ-ಟೋಕನ್‌ಗೆ ಸಮಯ (TTFT): ಗ್ರಹಿಸಿದ ಪ್ರತಿಕ್ರಿಯಾತ್ಮಕತೆ.

ಸೆಕೆಂಡಿಗೆ ಟೋಕನ್‌ಗಳು (TPS): ನಿರಂತರ ಡಿಕೋಡ್ ವೇಗ.

ಮೆಮೊರಿ ಹೆಜ್ಜೆಗುರುತು ಮತ್ತು ಕ್ವಾಂಟೈಸೇಶನ್: ಎಡ್ಜ್ ಮತ್ತು ಕಡಿಮೆ-VRAM GPU ಗಳಿಗಾಗಿ 4-ಬಿಟ್/8-ಬಿಟ್ ಬೆಂಬಲ.

ಸೇವೆ ಸಲ್ಲಿಸುವ ಸ್ಟಾಕ್: vLLM, TensorRT‑LLM, llama.cpp ಮತ್ತು ಪರಿಣಾಮಕಾರಿ KV ಕ್ಯಾಶ್‌ನೊಂದಿಗೆ ಹೊಂದಾಣಿಕೆ.

ನಿಮ್ಮ ಮೈಲೇಜ್ ಅನುಕ್ರಮದ ಉದ್ದ, ಬ್ಯಾಚ್ ಗಾತ್ರ, GPU ಪ್ರಕಾರ (A100 vs ಗ್ರಾಹಕ RTX), ಮತ್ತು ಕರ್ನಲ್ ಆಯ್ಕೆಗಳೊಂದಿಗೆ ಬದಲಾಗುತ್ತದೆ. ಇನ್ನೂ, ಸಾಮಾನ್ಯ ಸೆಟಪ್‌ಗಳಲ್ಲಿ, ಈ ಕೆಳಗಿನ ಮಾದರಿಗಳು ಅನೇಕ ಕಾರ್ಯಗಳಿಗೆ ಗುಣಮಟ್ಟವನ್ನು ಕಾಪಾಡಿಕೊಂಡು ಸ್ಥಿರವಾಗಿ GPT‑NeoX ಗಿಂತ ವೇಗವಾಗಿ ಚಲಿಸುತ್ತವೆ.

GPT‑NeoX ಗಿಂತ ವೇಗವಾದ ಟಾಪ್ 5 ಮುಕ್ತ-ಮೂಲ AI ಮಾದರಿಗಳು

1) Llama 3.1 8B ಇನ್‌ಸ್ಟ್ರಕ್ಟ್ (ಮೆಟಾ)

ಇದು ಏಕೆ ವೇಗವಾಗಿದೆ: ಆಧುನಿಕ ಗಮನ (GQA ಜೊತೆಗೆ), ಪರಿಣಾಮಕಾರಿ ಟೋಕನೈಜರ್, ಮತ್ತು vLLM, llama.cpp (GGUF), ಮತ್ತು TensorRT‑LLM ನಾದ್ಯಂತ ಉನ್ನತ-ಶ್ರೇಣಿಯ ಬೆಂಬಲ. 8B ಹೆಜ್ಜೆಗುರುತು ಒಂದು 24GB GPU ನಲ್ಲಿ ಚುರುಕಾಗಿರಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ; ಕ್ವಾಂಟೈಸ್ಡ್ ಬಿಲ್ಡ್‌ಗಳು ಗ್ರಾಹಕ GPU ಗಳಲ್ಲಿ ಮತ್ತು CPUಗಳಲ್ಲಿಯೂ ಸಹ ರನ್ ಆಗುತ್ತವೆ.

ಇದು ಎಲ್ಲಿ ಉತ್ತಮವಾಗಿದೆ: ಸಾಮಾನ್ಯ ಚಾಟ್, ಸಣ್ಣ-ಮಧ್ಯಮ ಸಂದರ್ಭಗಳೊಂದಿಗೆ RAG, ಹಗುರವಾದ ಏಜೆಂಟ್‌ಗಳು ಮತ್ತು ಉತ್ಪನ್ನ ಸಹಾಯಕರು. ಘನ ಸೂಚನಾ-ಅನುಸರಣೆ.

ನೈಜ-ಪ್ರಪಂಚದ ಎಡ್ಜ್: M-ಸರಣಿಯ ಮ್ಯಾಕ್ ಅಥವಾ ಸಾಧಾರಣ CPU ಸರ್ವರ್‌ನಲ್ಲಿ llama.cpp ಮೂಲಕ 4-ಬಿಟ್ GGUF ನೊಂದಿಗೆ, Llama 3.1 8B ವೇಗದ ಸಂವಾದಾತ್ಮಕ ಲೇಟೆನ್ಸಿಗಳನ್ನು ನೀಡುತ್ತದೆ, ಅಲ್ಲಿ GPT‑NeoX ಕ್ರಾಲ್ ಆಗುತ್ತದೆ.

ಇದರೊಂದಿಗೆ ಜೋಡಿಸಿ: ಬಹು-ಬಾಡಿಗೆ ಸೇವೆಗಾಗಿ vLLM, ಅಥವಾ ಎಡ್ಜ್ ನಿಯೋಜನೆಗಳಿಗಾಗಿ llama.cpp.

2) ಮಿಸ್ಟ್ರಲ್ 7B ಇನ್‌ಸ್ಟ್ರಕ್ಟ್ (ಮಿಸ್ಟ್ರಲ್ AI)

ಇದು ಏಕೆ ವೇಗವಾಗಿದೆ: 7B ಗಾತ್ರ, ಬಲವಾದ ಟೋಕನೈಜರ್ ದಕ್ಷತೆ, ಮತ್ತು ಜನಪ್ರಿಯ ರನ್‌ಟೈಮ್‌ಗಳಲ್ಲಿ ಉತ್ತಮ-ಗುಣಮಟ್ಟದ ಕರ್ನಲ್‌ಗಳು. ಮಿಸ್ಟ್ರಲ್‌ನ ಆರ್ಕಿಟೆಕ್ಚರ್ ಮತ್ತು ತರಬೇತಿಯು ಅತ್ಯುತ್ತಮ ವೇಗ/ಗುಣಮಟ್ಟದ ಪ್ರೊಫೈಲ್ ಅನ್ನು ನೀಡುತ್ತದೆ.

ಇದು ಎಲ್ಲಿ ಉತ್ತಮವಾಗಿದೆ: ಸಣ್ಣ-ರೂಪದ ತಾರ್ಕಿಕತೆ, ಕೋಡ್ ಸುಳಿವುಗಳು, ಜ್ಞಾನ ಸಹಾಯಕರು ಮತ್ತು ಬಹುಭಾಷಾ ಸಣ್ಣ ಉತ್ತರಗಳು. ಉಪಯುಕ್ತ ಕಾರ್ಯಗಳಿಗಾಗಿ ಅದರ ಗಾತ್ರಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

ನೈಜ-ಪ್ರಪಂಚದ ಎಡ್ಜ್: 4-ಬಿಟ್‌ನಲ್ಲಿರುವ ಮಿಸ್ಟ್ರಲ್ 7B ಗ್ರಾಹಕ RTX ಕಾರ್ಡ್‌ಗಳಲ್ಲಿ ಅತ್ಯುತ್ತಮ TPS ಅನ್ನು ತಲುಪುತ್ತದೆ; ಚಾಟ್ UI ಗಳು ತ್ವರಿತವಾಗಿರಲು TTFT ಸಾಕಷ್ಟು ಕಡಿಮೆಯಾಗಿದೆ. ಇದು ವೆಚ್ಚ-ಪರಿಣಾಮಕಾರಿ ಉತ್ಪಾದನೆಗೆ ಒಂದು ಹೋಗಬೇಕಾದ ಆಧಾರವಾಗಿದೆ.

ಇದರೊಂದಿಗೆ ಜೋಡಿಸಿ: ಹೆಚ್ಚಿನ ಥ್ರೂಪುಟ್‌ಗಾಗಿ vLLM + PagedAttention; ಮೊಬೈಲ್/ಎಡ್ಜ್‌ಗಾಗಿ llama.cpp.

3) Phi‑3 ಮಿನಿ 3.8B (ಮೈಕ್ರೋಸಾಫ್ಟ್)

ಇದು ಏಕೆ ವೇಗವಾಗಿದೆ: ಚಿಕ್ಕದಾದರೂ ಶಕ್ತಿಯುತವಾಗಿದೆ. 3.8B ಪ್ಯಾರಾಮೀಟರ್‌ಗಳಲ್ಲಿ, Phi‑3 ಮಿನಿ CPU ಗಳಲ್ಲಿ ಮತ್ತು ಒಟ್ಟಿಗೆಗೂಡಿದ GPU ಗಳಲ್ಲಿ ಆಕ್ರಮಣಕಾರಿ ಕ್ವಾಂಟೈಸೇಶನ್‌ನೊಂದಿಗೆ ಕಿರುಚುತ್ತದೆ, ಆದರೆ ಇನ್ನೂ ಸ್ಥಿರವಾದ ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ.

ಇದು ಎಲ್ಲಿ ಉತ್ತಮವಾಗಿದೆ: ಎಂಬೆಡೆಡ್ ಏಜೆಂಟ್‌ಗಳು, ಆನ್-ಡಿವೈಸ್ ಸಾರಾಂಶ, ಆಫ್‌ಲೈನ್ ನೋಟ್ ಸಹಾಯಕರು ಮತ್ತು ಕಡಿಮೆ-ಕಂಪ್ಯೂಟ್ RAG. ಕಚ್ಚಾ ಸಾಮರ್ಥ್ಯಕ್ಕಿಂತ ಲೇಟೆನ್ಸಿ ಮತ್ತು ವೆಚ್ಚಕ್ಕೆ ನೀವು ಆದ್ಯತೆ ನೀಡಬೇಕಾದಾಗ ಸೂಕ್ತವಾಗಿದೆ.

ನೈಜ-ಪ್ರಪಂಚದ ಎಡ್ಜ್: ಮೊದಲ-ಟೋಕನ್ ಲೇಟೆನ್ಸಿ ಸಾಮಾನ್ಯ ಹಾರ್ಡ್‌ವೇರ್‌ನಲ್ಲಿ ತಕ್ಷಣವೇ ಇರುವಂತೆ ಭಾಸವಾಗುತ್ತದೆ. ನೀವು ಸಾಮಾನ್ಯವಾಗಿ ಲೈಕ್-ಫಾರ್-ಲೈಕ್ ಸೆಟಪ್‌ಗಳಲ್ಲಿ GPT‑NeoX ಗಿಂತ 2–3x ಥ್ರೂಪುಟ್ ಅನ್ನು ನೋಡುತ್ತೀರಿ.

ಇದರೊಂದಿಗೆ ಜೋಡಿಸಿ: ವಿಂಡೋಸ್‌ಗಾಗಿ ONNX ರನ್‌ಟೈಮ್ / ಡೈರೆಕ್ಟ್‌ಎಂಎಲ್, ಕ್ರಾಸ್-ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗಾಗಿ llama.cpp.

4) Qwen2 7B ಇನ್‌ಸ್ಟ್ರಕ್ಟ್ (ಅಲಿಬಾಬಾ)

ಇದು ಏಕೆ ವೇಗವಾಗಿದೆ: ಬಲವಾದ ಬಹುಭಾಷಾ ಬೆಂಬಲ ಮತ್ತು ಉತ್ತಮವಾಗಿ-ಆಪ್ಟಿಮೈಸ್ಡ್ ಇನ್‌ಫರೆನ್ಸ್ ಗ್ರಾಫ್‌ಗಳೊಂದಿಗೆ ಪರಿಣಾಮಕಾರಿ ಆರ್ಕಿಟೆಕ್ಚರ್. vLLM ಮತ್ತು TensorRT‑LLM ನಲ್ಲಿ ಬಲವಾದ ಟೂಲಿಂಗ್.

ಇದು ಎಲ್ಲಿ ಉತ್ತಮವಾಗಿದೆ: ಬಹುಭಾಷಾ ಚಾಟ್, ವೆಬ್ ಟೂಲ್‌ಗಳು, ಫಂಕ್ಷನ್ ಕರೆ ಮತ್ತು ಇಕಾಮರ್ಸ್-ಶೈಲಿಯ ಜ್ಞಾನ ಕಾರ್ಯಗಳು. ಭಾಷೆಗಳಾದ್ಯಂತ ವೇಗ ಮತ್ತು ನಿಖರತೆಯ ಉತ್ತಮ ಸಮತೋಲನ.

ನೈಜ-ಪ್ರಪಂಚದ ಎಡ್ಜ್: KV‑ಕ್ಯಾಶ್ ಆಫ್‌ಲೋಡಿಂಗ್ ಮತ್ತು 4-ಬಿಟ್ ಕ್ವಾಂಟೈಸೇಶನ್‌ನೊಂದಿಗೆ, Qwen2 7B ಹೆಚ್ಚಿನ ಬ್ಯಾಚ್ ಥ್ರೂಪುಟ್ ಅನ್ನು GPT‑NeoX ಗಿಂತ ಹೆಚ್ಚು ಕಾಲ ಉಳಿಸಿಕೊಳ್ಳುತ್ತದೆ ಮತ್ತು ಹೆಚ್ಚಿನ ಅಪ್ಲಿಕೇಶನ್ ಹರಿವುಗಳಲ್ಲಿ ಪ್ರತಿಕ್ರಿಯೆ ಗುಣಮಟ್ಟವನ್ನು ಸಂರಕ್ಷಿಸುತ್ತದೆ.

ಇದರೊಂದಿಗೆ ಜೋಡಿಸಿ: NVIDIA ಸ್ಟಾಕ್‌ಗಳಿಗಾಗಿ TensorRT‑LLM; ಬಹು-ಮಾದರಿ ಸೇವೆಗಾಗಿ vLLM.

5) ಟೈನಿLlama 1.1B ಚಾಟ್ (ಸಮುದಾಯ)

ಇದು ಏಕೆ ವೇಗವಾಗಿದೆ: ಇದು ಚಿಕ್ಕದಾಗಿದೆ—ಮತ್ತು ಅದು ಮುಖ್ಯ ವಿಷಯ. 1.1B ಪ್ಯಾರಾಮೀಟರ್‌ಗಳು ಮತ್ತು ಅತ್ಯುತ್ತಮ GGUF ಬೆಂಬಲದೊಂದಿಗೆ, ಟೈನಿLlama ಪ್ರಾಯೋಗಿಕವಾಗಿ ಯಾವುದರಲ್ಲೂ ರನ್ ಆಗುತ್ತದೆ.

ಇದು ಎಲ್ಲಿ ಉತ್ತಮವಾಗಿದೆ: ಅಲ್ಟ್ರಾ-ಕಡಿಮೆ-ಲೇಟೆನ್ಸಿ ಟ್ರಿಗ್ಗರ್‌ಗಳು, ವರ್ಗೀಕರಣ, ಟೆಂಪ್ಲೇಟೆಡ್ ಪ್ರತಿಕ್ರಿಯೆಗಳು, ಸ್ಟ್ರೀಮಿಂಗ್ UI ಸುಳಿವುಗಳು ಮತ್ತು ಏಜೆಂಟ್ ಗ್ರಾಫ್‌ಗಳಲ್ಲಿ ವಾಚ್‌ಡಾಗ್/ಸಹ-ಪೈಲಟ್ ಕಾರ್ಯಗಳು.

ನೈಜ-ಪ್ರಪಂಚದ ಎಡ್ಜ್: ಲ್ಯಾಪ್‌ಟಾಪ್ CPU ಗಳಲ್ಲಿ ಉಪ-100ms ಪ್ರತಿಕ್ರಿಯೆಗಳು ಸಾಮಾನ್ಯವಾಗಿದೆ. ಭಾರವಾದ ಮಾದರಿಗೆ ಕರೆ ಮಾಡುವ ಮೊದಲು ರೂಟಿಂಗ್, ಗಾರ್ಡ್‌ರೈಲ್‌ಗಳು ಅಥವಾ ಪೂರ್ವ-ಫಿಲ್ಟರ್‌ಗಳಿಗೆ ಪರಿಪೂರ್ಣ.

ಇದರೊಂದಿಗೆ ಜೋಡಿಸಿ: ಫೆದರ್‌ವೇಟ್ ಸ್ಥಳೀಯ ಇನ್‌ಫರೆನ್ಸ್‌ಗಾಗಿ llama.cpp; ನಿಖರತೆಗಾಗಿ ರಿರಾಂಕರ್ + RAG ನೊಂದಿಗೆ ಸಂಯೋಜಿಸಿ.

ನಿಮ್ಮ ಸ್ಟಾಕ್‌ಗೆ ಸರಿಹೊಂದುವ ಗೌರವಾನ್ವಿತ ಉಲ್ಲೇಖಗಳು

Llama 3.1 70B ಇನ್‌ಸ್ಟ್ರಕ್ಟ್: GPT‑NeoX ಗಿಂತ ಚಿಕ್ಕದಲ್ಲ, ಆದರೆ ಉತ್ತಮ ಕರ್ನಲ್‌ಗಳು ಮತ್ತು ಆರ್ಕಿಟೆಕ್ಚರ್‌ಗೆ ಧನ್ಯವಾದಗಳು, ಇದು ಉನ್ನತ-ಮಟ್ಟದ GPU ಗಳಲ್ಲಿ ಪ್ರತಿ ಯುನಿಟ್ ಸಾಮರ್ಥ್ಯಕ್ಕೆ ಉತ್ತಮ TPS ಅನ್ನು ನೀಡುತ್ತದೆ. ಸಮಂಜಸವಾದ ವೇಗದೊಂದಿಗೆ ನಿಮಗೆ ಹೆಚ್ಚಿನ ಗುಣಮಟ್ಟದ ಅಗತ್ಯವಿದ್ದರೆ, ಅದು ಬಲವಂತವಾಗಿದೆ.

Mixtral 8x7B: ಬಲವಾದ ಗುಣಮಟ್ಟ ಮತ್ತು ಉತ್ತಮ ಥ್ರೂಪುಟ್ ಹೊಂದಿರುವ ಮಿಕ್ಚರ್-ಆಫ್-ಎಕ್ಸ್‌ಪರ್ಟ್ಸ್ ಮಾದರಿ ಬ್ಯಾಚ್ ಗಾತ್ರಗಳನ್ನು ಟ್ಯೂನ್ ಮಾಡಿದಾಗ; ಸಕ್ರಿಯಗೊಳಿಸುವಿಕೆಯ ವಿರಳತೆಯು ಲೇಟೆನ್ಸಿಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ, ಆದರೆ ಮೆಮೊರಿ ಬ್ಯಾಂಡ್‌ವಿಡ್ತ್ ಅನ್ನು ಎಚ್ಚರಿಕೆಯಿಂದ ನಿರ್ವಹಿಸಬೇಕು.

Gemma 2 9B: ಬಲವಾದ ಇನ್‌ಫರೆನ್ಸ್ ಬೆಂಬಲದೊಂದಿಗೆ ಉತ್ತಮ ಕಾರ್ಯಕ್ಷಮತೆ/ಗಾತ್ರದ ಸಮತೋಲನ; vLLM ಅಡಿಯಲ್ಲಿ ಸಾಕಷ್ಟು ವೇಗವಾಗಿರಬಹುದು.

ತ್ವರಿತ ಹೋಲಿಕೆ ಒಂದು ನೋಟದಲ್ಲಿ

ಕನಿಷ್ಠ ಹಾರ್ಡ್‌ವೇರ್‌ನಲ್ಲಿ ವೇಗವಾದ ಮೊದಲ-ಟೋಕನ್: Phi‑3 ಮಿನಿ, ಟೈನಿLlama.

ವೇಗ ಮತ್ತು ಸಾಮರ್ಥ್ಯದ ಅತ್ಯುತ್ತಮ ಸಮತೋಲನ: Llama 3.1 8B, ಮಿಸ್ಟ್ರಲ್ 7B, Qwen2 7B.

ಪ್ರಮಾಣದಲ್ಲಿ ಸೇವೆ ಸಲ್ಲಿಸಲು ಸುಲಭ (ಪರಿಸರ ವ್ಯವಸ್ಥೆ/ಟೂಲಿಂಗ್): vLLM/TensorRT‑LLM ಮೂಲಕ Llama 3.1, ಮಿಸ್ಟ್ರಲ್ 7B, Qwen2 7B.

ಬಹುಭಾಷೆಗೆ ಉತ್ತಮ: Qwen2 7B.

ಎಡ್ಜ್/ಆಫ್‌ಲೈನ್‌ಗೆ ಉತ್ತಮ: Phi‑3 ಮಿನಿ, ಟೈನಿLlama.

ಎಲ್ಲಾ ಐದೂ ಸಾಮಾನ್ಯವಾಗಿ ಚಾಟ್-ಶೈಲಿಯ ಮತ್ತು RAG ಬಳಕೆಗಾಗಿ GPT‑NeoX ಗಿಂತ ವೇಗವಾಗಿರುತ್ತವೆ, ವಿಶೇಷವಾಗಿ ಕ್ವಾಂಟೈಸ್ಡ್ ಮತ್ತು ಆಧುನಿಕ ರನ್‌ಟೈಮ್‌ಗಳ ಮೂಲಕ ಸೇವೆ ಸಲ್ಲಿಸಿದಾಗ.

ಪ್ರಾಯೋಗಿಕ ನಿಯೋಜನೆ ಪಾಕವಿಧಾನಗಳು (ನಕಲು-ಸ್ನೇಹಿ)

ಉದಾಹರಣೆ: vLLM ನೊಂದಿಗೆ ವೇಗದ ಚಾಟ್ API (Llama 3.1 8B)

ಹಾರ್ಡ್‌ವೇರ್: 1× RTX 3090/4090 ಅಥವಾ A10/A100

ಕಮಾಂಡ್ ಸ್ಕೆಚ್:

ಟೇನ್ಸರ್ ಪ್ಯಾರಲಲಿಸಂ ಅನ್ನು 1 ಗೆ ಹೊಂದಿಸಿ vLLM ಅನ್ನು ಪ್ರಾರಂಭಿಸಿ, ಪೇಜ್ಡ್ಅಟೆನ್ಶನ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸಿ ಮತ್ತು KV ಕ್ಯಾಶ್ ಅನ್ನು ಪೂರ್ವನಿಯೋಜಿಸಿ.

FP16 ಅಥವಾ INT8 ಬಳಸಿ; ಸ್ವೀಕಾರಾರ್ಹ ಗುಣಮಟ್ಟದ ನಷ್ಟದೊಂದಿಗೆ 4-ಬಿಟ್‌ಗಾಗಿ AWQ ಅಥವಾ GPTQ ಅನ್ನು ಪರಿಗಣಿಸಿ.

ಸಲಹೆಗಳು:

ಬಿಗಿಯಾದ ಲೇಟೆನ್ಸಿಗಳಿಗಾಗಿ max_new_tokens ಸಂಪ್ರದಾಯವಾದಿಯಾಗಿ ಇರಿಸಿ (256–512).

ಬ್ಯಾಚ್-ಮೊದಲ ಶೆಡ್ಯೂಲಿಂಗ್ ಅನ್ನು ಆನ್ ಮಾಡಿ; ತಕ್ಷಣವೇ ನಿಮ್ಮ UI ಗೆ ಟೋಕನ್‌ಗಳನ್ನು ಸ್ಟ್ರೀಮ್ ಮಾಡಿ.

ಉದಾಹರಣೆ: macOS ನಲ್ಲಿ ಎಡ್ಜ್ ಸಾರಾಂಶ (llama.cpp ಮೂಲಕ Phi‑3 ಮಿನಿ)

Q4_K_M ಅಥವಾ Q5_K_M GGUF ಗೆ ಕ್ವಾಂಟೈಸ್ ಮಾಡಿ.

ಪ್ರತಿ ಕಾರ್ಯಕ್ಷಮತೆಯ ಕೋರ್‌ಗೆ 4–8 ಥ್ರೆಡ್‌ಗಳನ್ನು ಬಳಸಿ; ವೇಗವಾಗಿ ಕ್ಯಾಶ್ ಹಿಟ್‌ಗಳಿಗಾಗಿ ಕಡಿಮೆ ಸಂದರ್ಭವನ್ನು ಹೊಂದಿಸಿ (1k–2k ಟೋಕನ್‌ಗಳು).

TTFT ಅನ್ನು ಕನಿಷ್ಠವಾಗಿಡಲು ಔಟ್‌ಪುಟ್ ಅನ್ನು ಸ್ಟ್ರೀಮ್ ಮಾಡಿ.

ಉದಾಹರಣೆ: ಬಹುಭಾಷಾ ಸಹಾಯಕ (Qwen2 7B + TensorRT‑LLM)

FP8 ಅಥವಾ INT8 ಮಾಪನಾಂಕ ನಿರ್ಣಯದೊಂದಿಗೆ ಎಂಜಿನ್ ಅನ್ನು ನಿರ್ಮಿಸಿ.

ದೀರ್ಘ ದಾಖಲೆಗಳಿಗಾಗಿ KV ಕ್ಯಾಶ್ ಮರುಬಳಕೆ ಮತ್ತು ಸ್ಲೈಡಿಂಗ್ ವಿಂಡೋ ಗಮನವನ್ನು ಸಕ್ರಿಯಗೊಳಿಸಿ.

ಆಕ್ರಮಣಕಾರಿಯಾಗಿ ವಿನಂತಿಗಳನ್ನು ಬ್ಯಾಚ್ ಮಾಡಿ; ಗರಿಷ್ಠ TPS ಗಾಗಿ ಊಹಾತ್ಮಕ ಡಿಕೋಡಿಂಗ್ ಅನ್ನು ಅವಲಂಬಿಸಿ.

ಈ ಮಾದರಿಗಳು GPT‑NeoX ಅನ್ನು ಏಕೆ ಮೀರಿಸುತ್ತವೆ

ಪ್ಯಾರಾಮೀಟರ್ ದಕ್ಷತೆ: 3–8B ಆಧುನಿಕ ಆರ್ಕಿಟೆಕ್ಚರ್‌ಗಳು ಈಗ ಅನೇಕ ಪ್ರಾಯೋಗಿಕ ಕಾರ್ಯಗಳಲ್ಲಿ ಹಳೆಯ 20B ಮಾದರಿಗಳನ್ನು ಪ್ರತಿಸ್ಪರ್ಧಿಸುತ್ತವೆ ಅಥವಾ ಮೀರಿಸುತ್ತವೆ.

ಆಪ್ಟಿಮೈಸ್ಡ್ ಗಮನ: GQA ಮತ್ತು ಸ್ಲೈಡಿಂಗ್ ವಿಂಡೋಗಳು ಕಂಪ್ಯೂಟ್ ಮತ್ತು ಮೆಮೊರಿ ಟ್ರಾಫಿಕ್ ಅನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತವೆ.

ಉತ್ತಮ ರನ್‌ಟೈಮ್‌ಗಳು: vLLM ನ ಪೇಜ್ಡ್ಅಟೆನ್ಶನ್, TensorRT‑LLM ಫ್ಯೂಸ್ಡ್ ಕರ್ನಲ್‌ಗಳು, llama.cpp CPU/ಮೆಟಲ್ ಆಪ್ಟಿಮೈಸೇಶನ್‌ಗಳು.

ಕ್ವಾಂಟೈಸೇಶನ್-ಮೊದಲ ಸಂಸ್ಕೃತಿ: ಸಮುದಾಯ GGUF, AWQ, GPTQ, ಮತ್ತು bitsandbytes 4–8 ಬಿಟ್ ದಿನಚರಿಯನ್ನು ಮಾಡುತ್ತವೆ.

ಸರಳವಾಗಿ ಹೇಳುವುದಾದರೆ: ಪರಿಸರ ವ್ಯವಸ್ಥೆಯು ಮುಂದಕ್ಕೆ ಸಾಗಿದೆ. GPT‑NeoX ಸಂಶೋಧನೆ ಮತ್ತು ಐತಿಹಾಸಿಕ ಆಧಾರಗಳಿಗೆ ಮೌಲ್ಯಯುತವಾಗಿದೆ, ಆದರೆ ಉತ್ಪನ್ನ ಲೇಟೆನ್ಸಿಗಾಗಿ, ಹಗುರವಾದ ಮಾದರಿಗಳು ಗೆಲ್ಲುತ್ತವೆ.

ಬಳಕೆಯ ಸಂದರ್ಭಗಳು ಮತ್ತು ಮಾದರಿ ಫಿಟ್

ಜ್ಞಾನ ನೆಲೆಗಳಿಗಾಗಿ RAG ಚಾಟ್‌ಬಾಟ್‌ಗಳು: Llama 3.1 8B ಅಥವಾ ಮಿಸ್ಟ್ರಲ್ 7B + ರಿರಾಂಕರ್; ಮರುಪಡೆಯುವಿಕೆಯ ನಂತರ ಹೋಲಿಸಬಹುದಾದ ಗುಣಮಟ್ಟದೊಂದಿಗೆ GPT‑NeoX ಗೆ ಹೋಲಿಸಿದರೆ ಅರ್ಥಪೂರ್ಣ ವೇಗವನ್ನು ನಿರೀಕ್ಷಿಸಿ.

ಗ್ರಾಹಕರ ಬೆಂಬಲ ವಿಚಲನ: ಬಹುಭಾಷಾ FAQ ಗಳಿಗಾಗಿ Qwen2 7B; ಏಕಕಾಲೀನತೆಗಾಗಿ ಕ್ವಾಂಟೈಸ್ ಮಾಡಿ, ಟೆಂಪ್ಲೇಟ್‌ಗಳ ಮೂಲಕ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಗರಿಗರಿಯಾಗಿ ಇರಿಸಿ.

ಆನ್-ಡಿವೈಸ್ ಸಹ-ಪೈಲಟ್‌ಗಳು: ಟಿಪ್ಪಣಿಗಳು, ಇಮೇಲ್ ಡ್ರಾಫ್ಟ್‌ಗಳು ಮತ್ತು ಚೆಕ್‌ಲಿಸ್ಟ್ ಉತ್ಪಾದನೆಗಾಗಿ Phi‑3 ಮಿನಿ; ಸ್ಥಳೀಯ ಸಿಮ್ಯಾಂಟಿಕ್ ಹುಡುಕಾಟಕ್ಕಾಗಿ ಸಣ್ಣ ಎಂಬೆಡಿಂಗ್ ಮಾದರಿಯೊಂದಿಗೆ ಸಂಯೋಜಿಸಿ.

ಏಜೆಂಟ್ ಗ್ರಾಫ್‌ಗಳು: ರೂಟರ್, ವರ್ಗೀಕರಣ ಹೆಡ್ ಅಥವಾ ಗಾರ್ಡ್‌ರೈಲ್ ಆಗಿ ಟೈನಿLlama; ವಿಶ್ವಾಸವು ಕಡಿಮೆಯಾದಾಗ ಮಾತ್ರ ಭಾರವಾದ ಮಾದರಿಗೆ ಕರೆ ಮಾಡಿ.

ಇನ್ನೂ ಹೆಚ್ಚಿನ ವೇಗಕ್ಕಾಗಿ ಟ್ಯೂನಿಂಗ್

ಸಂದರ್ಭದ ಉದ್ದವನ್ನು ಮಿತಿಗೊಳಿಸಿ: ದೀರ್ಘ ಪ್ರಾಂಪ್ಟ್‌ಗಳು ಕಂಪ್ಯೂಟ್ ಅನ್ನು ಸ್ಫೋಟಿಸುತ್ತವೆ; ವಿಂಡೋಗಳನ್ನು ಚಿಕ್ಕದಾಗಿ ಇಡಲು RAG ಅನ್ನು ಬಳಸಿ.

ಊಹಾತ್ಮಕ ಡಿಕೋಡಿಂಗ್: ಡಿಕೋಡಿಂಗ್ ಅನ್ನು ವೇಗಗೊಳಿಸಲು ಸಣ್ಣ ಡ್ರಾಫ್ಟ್ ಮಾದರಿಯನ್ನು (ಟೈನಿLlama/Phi‑3) ದೊಡ್ಡ ಗುರಿಯೊಂದಿಗೆ (ಮಿಸ್ಟ್ರಲ್/Llama 3.1) ಜೋಡಿಸಿ.

KV ಕ್ಯಾಶ್ ನೈರ್ಮಲ್ಯ: ಬಹು-ತಿರುವು ಚಾಟ್‌ಗಾಗಿ ಕ್ಯಾಶ್‌ಗಳನ್ನು ಮರುಬಳಕೆ ಮಾಡಿ; ಸಾಧ್ಯವಾದಲ್ಲೆಲ್ಲಾ ಮೆಮೊರಿಯನ್ನು ಪಿನ್ ಮಾಡಿ.

ಟೋಕನೈಜರ್ ಶಿಸ್ತು: ಸಂಕ್ಷಿಪ್ತ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಆದ್ಯತೆ ನೀಡಿ; ಸಿಸ್ಟಮ್ ಪ್ರಾಂಪ್ಟ್‌ಗಳು ಮುಖ್ಯ—ಅವುಗಳನ್ನು ಚಿಕ್ಕದಾಗಿ ಇರಿಸಿ.

ಚುರುಕಾಗಿ ಕ್ವಾಂಟೈಸ್ ಮಾಡಿ: ಎಡ್ಜ್‌ಗಾಗಿ 4-ಬಿಟ್; ಗುಣಮಟ್ಟವನ್ನು ಸಂರಕ್ಷಿಸುವ ಬಂಪ್‌ಗಾಗಿ 8-ಬಿಟ್. AWQ vs GPTQ ಅನ್ನು ಪರೀಕ್ಷಿಸಿ.

ಕಾಳಜಿಯೊಂದಿಗೆ ಬ್ಯಾಚ್ ಮಾಡಿ: ದೊಡ್ಡ ಬ್ಯಾಚ್‌ಗಳು ಥ್ರೂಪುಟ್ ಅನ್ನು ಹೆಚ್ಚಿಸುತ್ತವೆ ಆದರೆ TTFT ಗೆ ಹಾನಿ ಮಾಡಬಹುದು; SLA ಮೂಲಕ ಟ್ರಾಫಿಕ್ ಅನ್ನು ವಿಭಜಿಸಿ.

ಗುಣಮಟ್ಟ vs ವೇಗದ ಬಗ್ಗೆ ಏನು?

ಯಾವುದೇ ಏಕ ಮೆಟ್ರಿಕ್ ಗೆಲ್ಲುವುದಿಲ್ಲ. ನಿಮ್ಮ ಅಪ್ಲಿಕೇಶನ್‌ಗೆ ದೀರ್ಘ-ರೂಪದ ತಾರ್ಕಿಕತೆಯ ಅಗತ್ಯವಿದ್ದರೆ, ದೊಡ್ಡ ಮಾದರಿಯನ್ನು ಇನ್ನೂ ಸಮರ್ಥಿಸಬಹುದು. ಆದರೆ ಹೆಚ್ಚಿನ ಸಂವಾದಾತ್ಮಕ ಕಾರ್ಯಗಳಿಗಾಗಿ—ಚಾಟ್, ಸಣ್ಣ ಸಾರಾಂಶಗಳು, ರಚನಾತ್ಮಕ ಔಟ್‌ಪುಟ್‌ಗಳು—ಹೈಲೈಟ್ ಮಾಡಲಾದ ಐದು ಮಾದರಿಗಳು GPT‑NeoX ಗಿಂತ ಉತ್ತಮ ವೇಗ-ಉಪಯುಕ್ತತೆಯ ಅನುಪಾತವನ್ನು ನೀಡುತ್ತವೆ. ಕಾರ್ಯ-ಕೇಂದ್ರಿತ ಮೌಲ್ಯಮಾಪನ ಸೆಟ್ ಅನ್ನು ರನ್ ಮಾಡಿ, ಲೇಟೆನ್ಸಿ ಮತ್ತು ನಿಖರತೆಯನ್ನು ಅಳೆಯಿರಿ ಮತ್ತು ಪ್ರಾಯೋಗಿಕವಾಗಿ ನಿರ್ಧರಿಸಿ.

ಹಾಗೆಯೇ: Sider.AI ನೊಂದಿಗೆ ವೇಗವಾಗಿ ವರ್ಕ್‌ಫ್ಲೋಗಳನ್ನು ನಿರ್ಮಿಸುವುದು

ನೀವು ಬಹು ಮುಕ್ತ-ಮೂಲ ಮಾದರಿಗಳನ್ನು ಸಂಘಟಿಸುತ್ತಿದ್ದರೆ, Sider.AI ಪ್ರಯೋಗ ಮತ್ತು ನಿಯೋಜನೆಯನ್ನು ಸುವ್ಯವಸ್ಥಿತಗೊಳಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ಗಮನಿಸುವುದು ಯೋಗ್ಯವಾಗಿದೆ. ನೀವು ವಿಭಿನ್ನ ಮಾದರಿಗಳನ್ನು ತ್ವರಿತವಾಗಿ A/B ಮಾಡಬಹುದು (ಉದಾ., Llama 3.1 8B vs ಮಿಸ್ಟ್ರಲ್ 7B), ಲೇಟೆನ್ಸಿ ಮತ್ತು ಟೋಕನ್ ಅಂಕಿಅಂಶಗಳನ್ನು ಲಾಗ್ ಮಾಡಬಹುದು ಮತ್ತು ಅಂಟು ಕೋಡ್‌ನೊಂದಿಗೆ ಹೋರಾಡದೆ RAG ಅಥವಾ ಫಂಕ್ಷನ್ ಕರೆಗೆ ತಂತಿ ಹಾಕಬಹುದು. ಸಹಾಯಕರು ಅಥವಾ ಆಂತರಿಕ ಸಹ-ಪೈಲಟ್‌ಗಳನ್ನು ರವಾನಿಸುವ ತಂಡಗಳಿಗೆ, ಇದು ಮೂಲಮಾದರಿಯಿಂದ ಉತ್ಪಾದನೆಗೆ ಸಮಯವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಮತ್ತು ವೆಚ್ಚಗಳು ಮತ್ತು ಲೇಟೆನ್ಸಿಯನ್ನು ಪರಿಶೀಲಿಸುತ್ತದೆ.

ಪ್ರಮುಖ ಟೇಕ್‌ಅವೇಗಳು

Llama 3.1 8B, ಮಿಸ್ಟ್ರಲ್ 7B ಮತ್ತು Qwen2 7B ನಂತಹ ಆಧುನಿಕ 3–8B ಮಾದರಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ vLLM ಅಥವಾ TensorRT‑LLM ಅಡಿಯಲ್ಲಿ GPT‑NeoX ಗಿಂತ ವೇಗವಾಗಿರುತ್ತವೆ.

ಅಲ್ಟ್ರಾ-ಸಣ್ಣ ಆಯ್ಕೆಗಳು (Phi‑3 ಮಿನಿ, ಟೈನಿLlama) ಸಮೀಪದ-ತಕ್ಷಣದ ಪ್ರತಿಕ್ರಿಯೆಗಳೊಂದಿಗೆ ಎಡ್ಜ್ ಮತ್ತು CPU-ಮೊದಲ ನಿಯೋಜನೆಗಳನ್ನು ತೆರೆಯುತ್ತವೆ.

ಕ್ವಾಂಟೈಸೇಶನ್, KV ಕ್ಯಾಶ್ ಟ್ಯೂನಿಂಗ್ ಮತ್ತು ಸಂಕ್ಷಿಪ್ತ ಪ್ರಾಂಪ್ಟ್‌ಗಳು ಮಾದರಿ ಆಯ್ಕೆಯಷ್ಟೇ ಮುಖ್ಯ.

ಕಾರ್ಯ ಮತ್ತು ಲೇಟೆನ್ಸಿ ಬಜೆಟ್ ಮೂಲಕ ಮಾದರಿಗಳನ್ನು ಆರಿಸಿ, ನಂತರ ನಿಮ್ಮ ಸ್ವಂತ ಮೌಲ್ಯಮಾಪನಗಳೊಂದಿಗೆ ಮೌಲ್ಯೀಕರಿಸಿ.

ಮುಂದೆ ಏನು ಮಾಡಬೇಕು

ನಿಮ್ಮ ಡೀಫಾಲ್ಟ್ ವೇಗದ ಆಧಾರವಾಗಿ ಮಿಸ್ಟ್ರಲ್ 7B ಅಥವಾ Llama 3.1 8B ನೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸಿ.

ವೇಗವರ್ಧನೆಗಾಗಿ ಊಹಾತ್ಮಕ ಡ್ರಾಫ್ಟ್/ರೂಟರ್ ಆಗಿ Phi‑3 ಮಿನಿ ಅಥವಾ ಟೈನಿLlama ಅನ್ನು ಸೇರಿಸಿ.

ಸ್ಟ್ರೀಮಿಂಗ್‌ನೊಂದಿಗೆ vLLM ಅನ್ನು ಸ್ಟ್ಯಾಂಡ್ ಅಪ್ ಮಾಡಿ; ವಾಸ್ತವಿಕ ಲೋಡ್‌ಗಳ ಅಡಿಯಲ್ಲಿ TTFT ಮತ್ತು TPS ಅನ್ನು ಅಳೆಯಿರಿ.

ಪ್ರಾಂಪ್ಟ್ ಗಾತ್ರವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಮತ್ತು ಮಾದರಿಯನ್ನು ಉಬ್ಬಿಸದೆ ನಿಖರತೆಯನ್ನು ಸುಧಾರಿಸಲು RAG ಅನ್ನು ಲೇಯರ್ ಮಾಡಿ.

ಮಾದರಿಗಳಾದ್ಯಂತ ಪ್ರಯೋಗಗಳನ್ನು ಸಂಘಟಿಸಲು ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಲು Sider.AI ಅನ್ನು ಪರಿಗಣಿಸಿ.

FAQ

Q1:ಚಾಟ್ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಿಗಾಗಿ GPT‑NeoX ಗಿಂತ ವೇಗವಾದ ಮುಕ್ತ-ಮೂಲ ಮಾದರಿಗಳು ಯಾವುವು? Llama 3.1 8B, ಮಿಸ್ಟ್ರಲ್ 7B, Qwen2 7B, Phi‑3 ಮಿನಿ, ಮತ್ತು ಟೈನಿLlama ಸಾಮಾನ್ಯವಾಗಿ GPT‑NeoX ಗಿಂತ ಕಡಿಮೆ ಲೇಟೆನ್ಸಿಯನ್ನು ನೀಡುತ್ತವೆ, ವಿಶೇಷವಾಗಿ vLLM ಅಥವಾ llama.cpp ಮತ್ತು 4–8 ಬಿಟ್ ಕ್ವಾಂಟೈಸೇಶನ್‌ನೊಂದಿಗೆ.

Q2:ಗ್ರಾಹಕ GPU ಗಳಲ್ಲಿ ಮಿಸ್ಟ್ರಲ್ 7B GPT‑NeoX ಗಿಂತ ವೇಗವಾಗಿದೆಯೇ? ಹೌದು. ಮಿಸ್ಟ್ರಲ್ 7B ಯ ಚಿಕ್ಕ ಗಾತ್ರ ಮತ್ತು ಆಪ್ಟಿಮೈಸ್ಡ್ ಕರ್ನಲ್‌ಗಳು ಸಾಮಾನ್ಯವಾಗಿ RTX-ವರ್ಗದ GPU ಗಳಲ್ಲಿ GPT‑NeoX ಗೆ ಹೋಲಿಸಿದರೆ ಪ್ರತಿ ಸೆಕೆಂಡಿಗೆ ಉತ್ತಮ ಟೋಕನ್‌ಗಳನ್ನು ಮತ್ತು ಕಡಿಮೆ ಟೈಮ್-ಟು-ಫಸ್ಟ್-ಟೋಕನ್ ಅನ್ನು ನೀಡುತ್ತವೆ.

Q3:ನಾನು CPU ಅಥವಾ ಮ್ಯಾಕ್‌ನಲ್ಲಿ ವೇಗವಾದ GPT‑NeoX ಪರ್ಯಾಯವನ್ನು ರನ್ ಮಾಡಬಹುದೇ? Phi‑3 ಮಿನಿ ಮತ್ತು ಟೈನಿLlama GGUF ಕ್ವಾಂಟೈಸೇಶನ್‌ನೊಂದಿಗೆ llama.cpp ಮೂಲಕ CPU ಗಳಲ್ಲಿ ಮತ್ತು Apple ಸಿಲಿಕಾನ್‌ನಲ್ಲಿ ಉತ್ತಮವಾಗಿ ರನ್ ಆಗುತ್ತವೆ, ಇದು ಅದೇ ಹಾರ್ಡ್‌ವೇರ್‌ನಲ್ಲಿ GPT‑NeoX ಗಿಂತ ಹೆಚ್ಚು ವೇಗದ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ನೀಡುತ್ತದೆ.

Q4:ಬಹುಭಾಷಾ ಸಹಾಯಕರಿಗೆ ಉತ್ತಮ ವೇಗದ ಮಾದರಿ ಯಾವುದು? Qwen2 7B ಇನ್‌ಸ್ಟ್ರಕ್ಟ್ ವೇಗ ಮತ್ತು ಬಹುಭಾಷಾ ಗುಣಮಟ್ಟವನ್ನು ಸಮತೋಲನಗೊಳಿಸುತ್ತದೆ, ಇದು ಭಾಷೆಗಳಾದ್ಯಂತ ಬಲವಾದ ನಿಖರತೆಯನ್ನು ಕಾಪಾಡಿಕೊಂಡು ಲೇಟೆನ್ಸಿಯಲ್ಲಿ GPT‑NeoX ಅನ್ನು ಮೀರಿಸುತ್ತದೆ.

Q5:ಮುಕ್ತ-ಮೂಲ ಮಾದರಿಗಳೊಂದಿಗೆ ನಾನು ಉಪ-ಸೆಕೆಂಡ್ ಲೇಟೆನ್ಸಿಯನ್ನು ಹೇಗೆ ಪಡೆಯುವುದು? ಕಾಂಪ್ಯಾಕ್ಟ್ ಮಾದರಿಯನ್ನು (3–8B) ಬಳಸಿ, 4–8 ಬಿಟ್ ಕ್ವಾಂಟೈಸೇಶನ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸಿ, ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಚಿಕ್ಕದಾಗಿ ಇರಿಸಿ ಮತ್ತು vLLM ಅಥವಾ TensorRT‑LLM ನೊಂದಿಗೆ ಸೇವೆ ಮಾಡಿ. ಸಣ್ಣ ಡ್ರಾಫ್ಟ್ ಮಾದರಿಯೊಂದಿಗೆ ಊಹಾತ್ಮಕ ಡಿಕೋಡಿಂಗ್ ಲೇಟೆನ್ಸಿಯನ್ನು ಮತ್ತಷ್ಟು ಕಡಿತಗೊಳಿಸುತ್ತದೆ.