What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Hướng dẫn Sử Dụng LiteLLM: Hướng Dẫn Thực Tế với Ví Dụ, Mẹo Chuyên Nghiệp và Quy Trình Làm Việc Thực Tế

Nếu bạn từng ước tất cả các API mô hình đều hoạt động giống như OpenAI, bạn sẽ thích LiteLLM. Đây là một cổng nhẹ cho phép bạn gọi hơn 100 LLM với một giao diện duy nhất tương thích với OpenAI— cục bộ trong mã hoặc thông qua proxy trung tâm mà bạn có thể chia sẻ giữa các nhóm. Trong hướng dẫn này, chúng ta sẽ cùng nhau tìm hiểu về cài đặt, sử dụng cơ bản và nâng cao, truyền trực tuyến, xử lý hàng loạt, thử lại, bộ nhớ đệm, theo dõi chi phí và triển khai proxy LiteLLM với các biện pháp bảo vệ và định tuyến. Chúng tôi cũng sẽ bao gồm các ví dụ về Python và JavaScript cũng như các mẫu thực tế.

Điều đáng chú ý: nếu bạn muốn một cách nhanh chóng để tạo mẫu lời nhắc, đặt câu hỏi trên nhiều mô hình và sắp xếp kết quả, Sider.AI có thể là một trợ thủ đắc lực cho việc nghiên cứu và lặp lại trong khi bạn kết nối ngăn xếp dựa trên LiteLLM của mình. Nó bổ sung cho quy trình làm việc của bạn bằng cách giúp bạn so sánh kết quả đầu ra và tinh chỉnh lời nhắc trước khi bạn mã hóa chúng.

Chúng ta sẽ đi theo một con đường thực tế và hướng đến giải pháp, để bạn có thể sao chép-dán và triển khai.

LiteLLM là gì (và Tại sao Các Nhóm Sử Dụng Nó)

Một API cho nhiều mô hình: Gọi Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock và nhiều hơn nữa bằng các hàm kiểu OpenAI.

Hai cách sử dụng:

SDK Client (Python/JS): Sử dụng nhanh chóng trong các tập lệnh, máy chủ, sổ tay.

Proxy (LLM Gateway): Dịch vụ tập trung cho định tuyến, xác thực, ghi nhật ký, kiểm soát chi phí và khả năng quan sát.

Khả năng tương thích thả vào: Hoán đổi mô hình mà không cần viết lại ứng dụng của bạn.

Các tính năng vận hành: Thử lại, thời gian chờ, truyền trực tuyến, xử lý hàng loạt, bộ nhớ đệm, theo dõi và báo cáo chi phí ngoài luồng.

Nếu bạn chỉ mới bắt đầu, hãy lướt qua tài liệu Bắt Đầu chính thức để có một mô hình tư duy nhanh chóng. Đối với các ví dụ thực hành, hướng dẫn DataCamp là một người bạn đồng hành vững chắc với mã từng bước. Nếu bạn thích video, cũng có một khóa học cấp tốc thân thiện với người mới bắt đầu.

Bắt đầu Nhanh: Cài đặt và Lệnh Gọi Đầu Tiên Của Bạn

Cài đặt

# Python
pip install litellm
# Node.js
npm install litellm

Biến Môi Trường

# Ví dụ: sử dụng OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Hoàn Thành Chat Tối Thiểu

from litellm import completion
resp = completion(
model="gpt-4o-mini", # hoặc "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Truyền phát, Công cụ và Chế độ JSON
### Truyền phát Phản hồi
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Chi phí và Sử dụng Mã thông báo
LiteLLM có thể theo dõi mức sử dụng mã thông báo và ước tính chi phí cho mỗi yêu cầu, mô hình hoặc dự án. Với proxy, bạn có thể xuất mức sử dụng vào nhật ký, bảng điều khiển hoặc điểm chìm thanh toán. Điều này vô cùng quý giá khi bạn kết hợp các nhà cung cấp với các mức giá khác nhau.
---
## Proxy LiteLLM (LLM Gateway)
Nếu bạn là một nhóm hoặc nền tảng, proxy là siêu năng lực thực sự: một dịch vụ trung tâm với định tuyến, xác thực, giới hạn tốc độ, ghi nhật ký và khả năng quan sát. Bạn tương tác với nó bằng bề mặt API OpenAI, vì vậy mã ứng dụng của bạn hầu như không thay đổi.
### Bắt đầu Proxy
```bash
# chạy cục bộ đơn giản nhất
litellm --port 4000

Theo mặc định, nó hiển thị các điểm cuối tương thích với OpenAI như /v1/chat/completions. Trỏ ứng dụng khách OpenAI hiện có của bạn vào ` và bạn đã sẵn sàng.

Cấu hình Nhà cung cấp và Khóa

Tạo config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Chạy với cấu hình:

litellm --config config.yaml --port 4000

Sử dụng Proxy từ SDK OpenAI (Không Thay Đổi Mã)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
<a5>model="gpt-4o-mini",</a4>messages=.
---
## Định tuyến Nâng cao: Độ Trễ, Chi Phí hoặc Độ Tin Cậy
Bạn có thể triển khai các chiến lược định tuyến như:
- Trọng số luân phiên vòng tròn cho các mô hình A/B
- Ưu tiên độ trễ thấp nhất theo khu vực
- Định tuyến nhận biết chi phí cho các điểm cuối không quan trọng
- Dự phòng khi có lỗi/thử lại trên các nhà cung cấp
Với chính sách bộ định tuyến, bạn có thể nói “ưu tiên giá rẻ, dự phòng cho cao cấp đối với các lời nhắc khó”. Điều này mang lại tính khả dụng cao và ngân sách có thể dự đoán được.
---
## Các biện pháp bảo vệ, Kiểm duyệt và An toàn
Thêm phần mềm trung gian tiền xử lý và hậu xử lý để loại bỏ PII, thực thi các bộ lọc an toàn hoặc kiểm duyệt kết quả đầu ra trước khi trả về cho khách hàng. Kết hợp kiểm duyệt gốc của nhà cung cấp (ví dụ: OpenAI, Google) với kiểm tra chính sách của riêng bạn trong proxy. Ví dụ: yêu cầu xác thực lược đồ JSON và yêu cầu lại khi không hợp lệ.
---
## Khả năng quan sát và Ghi nhật ký
- Bật ghi nhật ký yêu cầu/phản hồi với tính năng chỉnh sửa.
- Xuất số liệu sang Prometheus/Grafana hoặc APM của bạn.
- Theo dõi độ trễ, mã thông báo và chi phí theo điểm cuối và người dùng.
Điều này biến “vòng quay mô hình” thành một dịch vụ được quản lý với SLO và ngân sách.
---
## Các Mẫu Sử Dụng Trong Thế Giới Thực
1) Khả năng phục hồi đa nhà cung cấp
- Chính: mô hình nhanh/rẻ; Dự phòng: mô hình có độ chính xác cao trên 429/5xx.
- Lợi ích: thời gian hoạt động tốt hơn, kiểm soát chi phí và chất lượng ổn định.
2) Nâng cấp mô hình gắn cờ tính năng
- Sử dụng trọng số bộ định tuyến để kiểm tra mô hình mới cho 5% lưu lượng truy cập; theo dõi các số liệu; tăng lên khi ổn định.
3) Các cấp sản phẩm
- Cấp miễn phí được định tuyến đến các mô hình nhỏ; Cấp Pro đến các mô hình cao cấp.
4) Sổ đăng ký và mẫu lời nhắc
- Tập trung các lời nhắc trong proxy để các dịch vụ kế thừa các cải tiến mà không cần triển khai lại.
5) Thanh toán và ngân sách theo nhóm
- Theo dõi chi tiêu theo khóa API; thực thi các giới hạn mềm và cứng cho mỗi nhóm hoặc sản phẩm.
---
## Danh sách Kiểm tra Bảo mật và Tuân thủ
- Lưu trữ khóa nhà cung cấp trong trình quản lý bí mật của bạn; tham chiếu thông qua các biến môi trường trong cấu hình.
- Bật tính năng chỉnh sửa yêu cầu và xóa PII trong nhật ký.
- Sử dụng khóa API cho mỗi dịch vụ cho proxy; xoay vòng thường xuyên.
- Đặt giới hạn tốc độ và hạn ngạch trên toàn tổ chức.
- Thêm danh sách cho phép/từ chối cho các mô hình và điểm cuối.
---
## Khắc phục sự cố: Các bản sửa lỗi nhanh
- “Không được phép” thông qua proxy: Kiểm tra `auth.api_keys` và ứng dụng khách của bạn sử dụng `base_url` + khóa chính xác.
- Không tìm thấy mô hình: Đảm bảo `model_list` chứa tên thân thiện mà bạn đang gọi.
- Hết thời gian: Tăng `timeout` hoặc định tuyến đến khu vực nhà cung cấp có độ trễ thấp hơn.
- Đầu ra kỳ lạ: Bật lược đồ JSON + xác thực; thêm thử lại và dự phòng.
- Tăng đột biến chi phí: Bật bộ nhớ đệm; định tuyến lưu lượng lớn đến các mô hình rẻ hơn; đặt hạn ngạch cho mỗi khóa.
Để tìm hiểu sâu hơn và các tính năng mới nhất, tài liệu chính thức được cập nhật thường xuyên và đáng để đánh dấu. Các hướng dẫn như hướng dẫn của DataCamp rất tốt cho các mẫu thực hành và video khóa học cấp tốc dành cho người mới bắt đầu có thể giúp bạn xem các khái niệm trong thực tế.
---
## Kết hợp Tất cả: Bộ Khung Ứng Dụng Tham Khảo (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### Câu hỏi thường gặp
Q1: LiteLLM là gì và tại sao nên sử dụng nó thay vì SDK nhà cung cấp trực tiếp?
LiteLLM là một cổng tương thích với OpenAI cho hơn 100 LLM, cung cấp cho bạn một API và một mô hình tư duy. Nó giảm sự phụ thuộc vào nhà cung cấp, đơn giản hóa định tuyến và thêm các tính năng hoạt động như bộ nhớ đệm, thử lại và theo dõi chi phí.
Q2: Làm cách nào để sử dụng LiteLLM với OpenAI SDK?
Trỏ URL cơ sở của SDK vào proxy LiteLLM và sử dụng khóa API proxy của bạn. Mã của bạn có thể giữ nguyên trong khi proxy hoán đổi nhà cung cấp hoặc mô hình ở chế độ nền.
Q3: LiteLLM có thể truyền phát phản hồi và trả về JSON không?
Có. Sử dụng `stream=True` để nhận các luồng mã thông báo và `response_format` với lược đồ JSON để thực thi các đầu ra có cấu trúc trên các nhà cung cấp.
Q4: Làm cách nào để kiểm soát chi phí trên các nhà cung cấp LLM khác nhau?
Bật ghi nhật ký sử dụng và ước tính chi phí, thêm bộ nhớ đệm, đặt giới hạn tốc độ và định tuyến lưu lượng lớn đến các mô hình rẻ hơn thông qua proxy. Giám sát bằng bảng điều khiển cho ngân sách và SLO.
Q5: LiteLLM có phù hợp cho các nhóm sản xuất không?
Có. Proxy cung cấp xác thực, giới hạn tốc độ, định tuyến, khả năng quan sát và phần mềm trung gian an toàn. Nó được thiết kế như một cổng LLM tập trung quản trị trong khi vẫn giữ cho ứng dụng của bạn tương thích với OpenAI.

Cách Sử Dụng LiteLLM: Hướng Dẫn Thực Hành với Ví Dụ, Mẹo Chuyên Nghiệp và Quy Trình Làm Việc Thực Tế