What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

วิธีการใช้งาน LiteLLM: คู่มือเชิงปฏิบัติพร้อมตัวอย่าง เคล็ดลับระดับโปร และเวิร์กโฟลว์ในโลกแห่งความเป็นจริง

หากคุณเคยหวังว่า API ของทุกโมเดลจะทำงานเหมือนกับ OpenAI คุณจะต้องชอบ LiteLLM อย่างแน่นอน มันเป็นเกตเวย์น้ำหนักเบาที่ช่วยให้คุณเรียกใช้ LLM กว่า 100 รายการด้วยอินเทอร์เฟซเดียวที่เข้ากันได้กับ OpenAI ไม่ว่าจะในโค้ดภายในเครื่อง หรือผ่านพร็อกซีส่วนกลางที่คุณสามารถแชร์ข้ามทีมได้ ในบทช่วยสอนนี้ เราจะแนะนำคุณตลอดการติดตั้ง การใช้งานขั้นพื้นฐานและขั้นสูง การสตรีม การจัดกลุ่ม การลองใหม่ การแคช การติดตามค่าใช้จ่าย และการปรับใช้พร็อกซี LiteLLM พร้อม Guardrails และการกำหนดเส้นทาง นอกจากนี้ เราจะรวมตัวอย่าง Python และ JavaScript และรูปแบบการใช้งานจริง

สิ่งที่ควรทราบ: หากคุณต้องการวิธีที่รวดเร็วในการสร้างต้นแบบพรอมต์ ถามคำถามข้ามโมเดลต่างๆ และจัดระเบียบผลลัพธ์ Sider.AI สามารถเป็นผู้ช่วยที่มีประโยชน์สำหรับการวิจัยและการทำซ้ำในขณะที่คุณเชื่อมต่อ Stack ที่ใช้ LiteLLM ของคุณ มันช่วยเสริมเวิร์กโฟลว์ของคุณโดยช่วยให้คุณเปรียบเทียบเอาต์พุตและปรับแต่งพรอมต์ก่อนที่จะเข้ารหัส

เราจะใช้แนวทางที่เน้นการปฏิบัติและมุ่งเน้นการแก้ปัญหา เพื่อให้คุณสามารถคัดลอกและนำไปใช้งานได้

LiteLLM คืออะไร (และเหตุใดทีมต่างๆ จึงใช้งาน)

API เดียวสำหรับหลายโมเดล: เรียกใช้ Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock และอื่นๆ โดยใช้ฟังก์ชันสไตล์ OpenAI

สองวิธีในการใช้งาน:

Client SDKs (Python/JS): ใช้งานอย่างรวดเร็วในสคริปต์ เซิร์ฟเวอร์ โน้ตบุ๊ก

Proxy (LLM Gateway): บริการส่วนกลางสำหรับการกำหนดเส้นทาง การตรวจสอบสิทธิ์ การบันทึก การควบคุมค่าใช้จ่าย และการสังเกต

ความเข้ากันได้แบบ Drop-in: สลับโมเดลโดยไม่ต้องเขียนแอปของคุณใหม่

คุณสมบัติการดำเนินงาน: การลองใหม่, การหมดเวลา, การสตรีม, การจัดกลุ่ม, การแคช, การติดตาม และการรายงานค่าใช้จ่ายนอกกรอบ

หากคุณเพิ่งเริ่มต้น ให้อ่านเอกสาร Getting Started อย่างเป็นทางการเพื่อทำความเข้าใจภาพรวมอย่างรวดเร็ว สำหรับตัวอย่างเชิงปฏิบัติ บทช่วยสอน DataCamp เป็นเพื่อนร่วมทางที่ดีพร้อมโค้ดทีละขั้นตอน หากคุณชอบวิดีโอ ก็ยังมีหลักสูตรเร่งรัดที่เป็นมิตรกับผู้เริ่มต้นอีกด้วย

เริ่มต้นอย่างรวดเร็ว: ติดตั้งและเรียกใช้งานครั้งแรก

ติดตั้ง

# Python
pip install litellm
# Node.js
npm install litellm

ตัวแปรสภาพแวดล้อม

# ตัวอย่าง: การใช้ OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: การเติมข้อความแชทแบบ Minimal

from litellm import completion
resp = completion(
model="gpt-4o-mini", # หรือ "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## การสตรีม, เครื่องมือ และโหมด JSON
### การสตรีมการตอบสนอง
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### การใช้โทเค็นและค่าใช้จ่าย
LiteLLM สามารถติดตามการใช้โทเค็นและประมาณค่าใช้จ่ายต่อคำขอ โมเดล หรือโปรเจ็กต์ ด้วยพร็อกซี คุณสามารถส่งออกการใช้งานไปยังบันทึก แดชบอร์ด หรือ Billing Sink สิ่งนี้มีค่ามากเมื่อคุณรวมผู้จำหน่ายที่มีราคาแตกต่างกัน
---
## พร็อกซี LiteLLM (LLM Gateway)
หากคุณเป็นทีมหรือแพลตฟอร์ม พร็อกซีคือ Superpower ที่แท้จริง: บริการส่วนกลางที่มีการกำหนดเส้นทาง การตรวจสอบสิทธิ์ การจำกัดอัตรา การบันทึก และการสังเกต คุณโต้ตอบกับมันโดยใช้อินเทอร์เฟซ OpenAI API ดังนั้นโค้ดแอปของคุณจึงแทบไม่มีการเปลี่ยนแปลง
### เริ่มพร็อกซี
```bash
# รันภายในเครื่องที่ง่ายที่สุด
litellm --port 4000

โดยค่าเริ่มต้น มันจะเปิดเผย Endpoint ที่เข้ากันได้กับ OpenAI เช่น /v1/chat/completions ชี้ Client OpenAI ที่มีอยู่ของคุณไปที่ ` และคุณก็พร้อมแล้ว

กำหนดค่าผู้ให้บริการและคีย์

สร้าง config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

เรียกใช้ด้วย config:

litellm --config config.yaml --port 4000

ใช้พร็อกซีจาก OpenAI SDKs (ไม่ต้องแก้ไขโค้ด)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## การกำหนดเส้นทางขั้นสูง: Latency, ค่าใช้จ่าย หรือความน่าเชื่อถือ
คุณสามารถใช้กลยุทธ์การกำหนดเส้นทาง เช่น:
- Weighted Round-Robin ไปยัง A/B models
- Lowest-latency-first ตามภูมิภาค
- Cost-aware routing สำหรับ Endpoint ที่ไม่สำคัญ
- Fallback-on-error/retry ข้ามผู้ให้บริการ
ด้วยนโยบาย Router คุณสามารถพูดได้ว่า “ชอบราคาถูก สำรองไปยังพรีเมียมสำหรับ Prompt ที่ยาก” สิ่งนี้ให้ความพร้อมใช้งานสูงและงบประมาณที่คาดการณ์ได้
---
## Guardrails, การกลั่นกรอง และความปลอดภัย
เพิ่ม Middleware ก่อนและหลังการประมวลผลเพื่อลบ PII บังคับใช้ตัวกรองความปลอดภัย หรือกลั่นกรองเอาต์พุตก่อนที่จะส่งคืนให้กับ Client รวมการกลั่นกรองของผู้ให้บริการดั้งเดิม (เช่น OpenAI, Google) กับการตรวจสอบนโยบายของคุณเองในพร็อกซี ตัวอย่าง: กำหนดให้มีการตรวจสอบ Schema JSON และขอใหม่เมื่อไม่ถูกต้อง
---
## การสังเกตและการบันทึก
- เปิดใช้งานการบันทึกคำขอ/การตอบสนองด้วยการแก้ไข
- ส่งออกเมตริกไปยัง Prometheus/Grafana หรือ APM ของคุณ
- ติดตาม Latency, โทเค็น และค่าใช้จ่ายตาม Endpoint และผู้ใช้
สิ่งนี้เปลี่ยน “Model Roulette” ให้เป็นบริการที่มีการจัดการพร้อม SLO และงบประมาณ
---
## รูปแบบการใช้งานจริง
1) ความยืดหยุ่นของผู้จำหน่ายหลายราย
- Primary: โมเดลที่รวดเร็ว/ราคาถูก; Fallback: โมเดลที่มีความแม่นยำสูงบน 429/5xx
- ข้อดี: Uptime ที่ดีขึ้น การควบคุมค่าใช้จ่าย และคุณภาพที่เสถียร
2) อัปเกรดโมเดล Feature Flag
- ใช้ Router Weights เพื่อ Canary โมเดลใหม่เป็น 5% ของ Traffic; ตรวจสอบเมตริก; เพิ่มขึ้นเมื่อเสถียร
3) ระดับผลิตภัณฑ์
- Free Tier กำหนดเส้นทางไปยังโมเดลขนาดเล็ก; Pro Tier ไปยังโมเดลพรีเมียม
4) Prompt Registries และ Templates
- รวมศูนย์ Prompt ในพร็อกซีเพื่อให้ Service สืบทอดการปรับปรุงโดยไม่ต้อง Redeploy
5) การเรียกเก็บเงินและงบประมาณของทีม
- ติดตามการใช้จ่ายตาม API Key; บังคับใช้ Soft และ Hard Limits ต่อทีมหรือผลิตภัณฑ์
---
## Security and Compliance Checklist
- จัดเก็บ Provider Key ใน Secret Manager ของคุณ; อ้างอิงผ่าน Env Vars ใน Config
- เปิด Request Redaction และ PII Scrubbing ใน Logs
- ใช้ API Key ต่อ Service สำหรับพร็อกซี; หมุนเวียนเป็นประจำ
- ตั้งค่า Org-wide Rate Limits และ Quotas
- เพิ่ม Allowlists/Denylists สำหรับโมเดลและ Endpoint
---
## การแก้ไขปัญหา: การแก้ไขอย่างรวดเร็ว
- “Unauthorized” ผ่านพร็อกซี: ตรวจสอบ `auth.api_keys` และ Client ของคุณใช้ `base_url` + คีย์ที่ถูกต้อง
- ไม่พบโมเดล: ตรวจสอบให้แน่ใจว่า `model_list` มีชื่อที่เรียกง่ายที่คุณกำลังเรียก
- Timeouts: เพิ่ม `timeout` หรือกำหนดเส้นทางไปยัง Provider Region ที่มี Latency ต่ำกว่า
- เอาต์พุตที่แปลก: เปิดใช้งาน JSON Schema + Validation; เพิ่ม Retries และ Fallbacks
- Cost Spikes: เปิดใช้งาน Caching; กำหนดเส้นทาง Bulk Traffic ไปยังโมเดลที่ถูกกว่า; ตั้งค่า Per-key Quotas
สำหรับการเจาะลึกและคุณสมบัติล่าสุด เอกสารอย่างเป็นทางการจะมีการอัปเดตบ่อยครั้งและควรค่าแก่การบุ๊กมาร์ก บทช่วยสอนเช่นคู่มือของ DataCamp เหมาะสำหรับรูปแบบการใช้งานจริง และวิดีโอ Crash Course สำหรับผู้เริ่มต้นสามารถช่วยให้คุณเห็นแนวคิดในการปฏิบัติจริง
---
## รวบรวมทุกอย่างเข้าด้วยกัน: โครงสร้างแอปอ้างอิง (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### FAQ
Q1: LiteLLM คืออะไร และเหตุใดจึงควรใช้แทน Provider SDKs โดยตรง
LiteLLM เป็น Gateway ที่เข้ากันได้กับ OpenAI สำหรับ LLM กว่า 100 รายการ ทำให้คุณมี API เดียวและความเข้าใจเดียว มันลดการผูกมัดกับผู้จำหน่าย ลดความซับซ้อนในการกำหนดเส้นทาง และเพิ่มคุณสมบัติ Ops เช่น Caching, Retries และการติดตามค่าใช้จ่าย
Q2: ฉันจะใช้ LiteLLM กับ OpenAI SDK ได้อย่างไร
ชี้ Base URL ของ SDK ไปยังพร็อกซี LiteLLM และใช้ API Key ของพร็อกซี โค้ดของคุณสามารถคงเดิมได้ในขณะที่พร็อกซีสลับผู้ให้บริการหรือโมเดลเบื้องหลัง
Q3: LiteLLM สามารถสตรีมการตอบสนองและส่งคืน JSON ได้หรือไม่
ได้ ใช้ `stream=True` เพื่อรับ Token Streams และ `response_format` พร้อม JSON Schema เพื่อบังคับใช้ Structured Outputs ข้ามผู้ให้บริการ
Q4: ฉันจะควบคุมค่าใช้จ่ายข้ามผู้ให้บริการ LLM ที่แตกต่างกันได้อย่างไร
เปิดใช้งาน Usage Logging และ Cost Estimation เพิ่ม Caching ตั้งค่า Rate Limits และกำหนดเส้นทาง Bulk Traffic ไปยังโมเดลที่ถูกกว่าผ่านพร็อกซี ตรวจสอบด้วยแดชบอร์ดสำหรับงบประมาณและ SLOs
Q5: LiteLLM เหมาะสำหรับทีมงาน Production หรือไม่
ใช่ พร็อกซีให้การตรวจสอบสิทธิ์ การจำกัดอัตรา การกำหนดเส้นทาง การสังเกต และ Safety Middleware มันถูกออกแบบมาให้เป็น LLM Gateway ที่รวมศูนย์การกำกับดูแลในขณะที่ทำให้แอปของคุณเข้ากันได้กับ OpenAI

วิธีใช้ LiteLLM: คู่มือเชิงปฏิบัติพร้อมตัวอย่าง เคล็ดลับระดับโปร และเวิร์กโฟลว์ในโลกจริง