Cập nhật vào 25 Th09 2025
6 phút
# Pythonpip install litellm# Node.jsnpm install litellm# Ví dụ: sử dụng OpenAI + Anthropic + Mistralexport OPENAI_API_KEY=sk-...export ANTHROPIC_API_KEY=sk-ant-...export MISTRAL_API_KEY=sk-mis-...from litellm import completionresp = completion(model="gpt-4o-mini", # hoặc "anthropic/claude-3-5-sonnet", "mistral/mistral-large"messages=.---## Truyền phát, Công cụ và Chế độ JSON### Truyền phát Phản hồi```pythonfrom litellm import completionfor chunk in completion(model="gpt-4o-mini",messages=.### Chi phí và Sử dụng Mã thông báoLiteLLM có thể theo dõi mức sử dụng mã thông báo và ước tính chi phí cho mỗi yêu cầu, mô hình hoặc dự án. Với proxy, bạn có thể xuất mức sử dụng vào nhật ký, bảng điều khiển hoặc điểm chìm thanh toán. Điều này vô cùng quý giá khi bạn kết hợp các nhà cung cấp với các mức giá khác nhau.---## Proxy LiteLLM (LLM Gateway)Nếu bạn là một nhóm hoặc nền tảng, proxy là siêu năng lực thực sự: một dịch vụ trung tâm với định tuyến, xác thực, giới hạn tốc độ, ghi nhật ký và khả năng quan sát. Bạn tương tác với nó bằng bề mặt API OpenAI, vì vậy mã ứng dụng của bạn hầu như không thay đổi.### Bắt đầu Proxy```bash# chạy cục bộ đơn giản nhấtlitellm --port 4000/v1/chat/completions. Trỏ ứng dụng khách OpenAI hiện có của bạn vào ` và bạn đã sẵn sàng.config.yaml:model_list:- model_name: gpt-4o-minilitellm_params:model: openai/gpt-4o-miniapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}router:strategy: simple_weightedroutes:- model: gpt-4o-miniweight: 0.6- model: claude-3-5-sonnetweight: 0.4rate_limits:requests_per_minute: 120logging:level: infosink: stdoutauth:api_keys:- key: svc-app-123litellm --config config.yaml --port 4000from openai import OpenAIclient = OpenAI(base_url=" api_key="svc-app-123")resp = client.chat.completions.create(<a5>model="gpt-4o-mini",</a4>messages=.---## Định tuyến Nâng cao: Độ Trễ, Chi Phí hoặc Độ Tin CậyBạn có thể triển khai các chiến lược định tuyến như:- Trọng số luân phiên vòng tròn cho các mô hình A/B- Ưu tiên độ trễ thấp nhất theo khu vực- Định tuyến nhận biết chi phí cho các điểm cuối không quan trọng- Dự phòng khi có lỗi/thử lại trên các nhà cung cấpVới chính sách bộ định tuyến, bạn có thể nói “ưu tiên giá rẻ, dự phòng cho cao cấp đối với các lời nhắc khó”. Điều này mang lại tính khả dụng cao và ngân sách có thể dự đoán được.---## Các biện pháp bảo vệ, Kiểm duyệt và An toànThêm phần mềm trung gian tiền xử lý và hậu xử lý để loại bỏ PII, thực thi các bộ lọc an toàn hoặc kiểm duyệt kết quả đầu ra trước khi trả về cho khách hàng. Kết hợp kiểm duyệt gốc của nhà cung cấp (ví dụ: OpenAI, Google) với kiểm tra chính sách của riêng bạn trong proxy. Ví dụ: yêu cầu xác thực lược đồ JSON và yêu cầu lại khi không hợp lệ.---## Khả năng quan sát và Ghi nhật ký- Bật ghi nhật ký yêu cầu/phản hồi với tính năng chỉnh sửa.- Xuất số liệu sang Prometheus/Grafana hoặc APM của bạn.- Theo dõi độ trễ, mã thông báo và chi phí theo điểm cuối và người dùng.Điều này biến “vòng quay mô hình” thành một dịch vụ được quản lý với SLO và ngân sách.---## Các Mẫu Sử Dụng Trong Thế Giới Thực1) Khả năng phục hồi đa nhà cung cấp- Chính: mô hình nhanh/rẻ; Dự phòng: mô hình có độ chính xác cao trên 429/5xx.- Lợi ích: thời gian hoạt động tốt hơn, kiểm soát chi phí và chất lượng ổn định.2) Nâng cấp mô hình gắn cờ tính năng- Sử dụng trọng số bộ định tuyến để kiểm tra mô hình mới cho 5% lưu lượng truy cập; theo dõi các số liệu; tăng lên khi ổn định.3) Các cấp sản phẩm- Cấp miễn phí được định tuyến đến các mô hình nhỏ; Cấp Pro đến các mô hình cao cấp.4) Sổ đăng ký và mẫu lời nhắc- Tập trung các lời nhắc trong proxy để các dịch vụ kế thừa các cải tiến mà không cần triển khai lại.5) Thanh toán và ngân sách theo nhóm- Theo dõi chi tiêu theo khóa API; thực thi các giới hạn mềm và cứng cho mỗi nhóm hoặc sản phẩm.---## Danh sách Kiểm tra Bảo mật và Tuân thủ- Lưu trữ khóa nhà cung cấp trong trình quản lý bí mật của bạn; tham chiếu thông qua các biến môi trường trong cấu hình.- Bật tính năng chỉnh sửa yêu cầu và xóa PII trong nhật ký.- Sử dụng khóa API cho mỗi dịch vụ cho proxy; xoay vòng thường xuyên.- Đặt giới hạn tốc độ và hạn ngạch trên toàn tổ chức.- Thêm danh sách cho phép/từ chối cho các mô hình và điểm cuối.---## Khắc phục sự cố: Các bản sửa lỗi nhanh- “Không được phép” thông qua proxy: Kiểm tra `auth.api_keys` và ứng dụng khách của bạn sử dụng `base_url` + khóa chính xác.- Không tìm thấy mô hình: Đảm bảo `model_list` chứa tên thân thiện mà bạn đang gọi.- Hết thời gian: Tăng `timeout` hoặc định tuyến đến khu vực nhà cung cấp có độ trễ thấp hơn.- Đầu ra kỳ lạ: Bật lược đồ JSON + xác thực; thêm thử lại và dự phòng.- Tăng đột biến chi phí: Bật bộ nhớ đệm; định tuyến lưu lượng lớn đến các mô hình rẻ hơn; đặt hạn ngạch cho mỗi khóa.Để tìm hiểu sâu hơn và các tính năng mới nhất, tài liệu chính thức được cập nhật thường xuyên và đáng để đánh dấu. Các hướng dẫn như hướng dẫn của DataCamp rất tốt cho các mẫu thực hành và video khóa học cấp tốc dành cho người mới bắt đầu có thể giúp bạn xem các khái niệm trong thực tế.---## Kết hợp Tất cả: Bộ Khung Ứng Dụng Tham Khảo (Python FastAPI)```python# app.pyfrom fastapi import FastAPIfrom pydantic import BaseModelfrom litellm import completionimport osclass ChatReq(BaseModel):question: strapp = FastAPI@app.post("/ask")async def ask(req: ChatReq):resp = completion(model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),messages=.### Câu hỏi thường gặpQ1: LiteLLM là gì và tại sao nên sử dụng nó thay vì SDK nhà cung cấp trực tiếp?LiteLLM là một cổng tương thích với OpenAI cho hơn 100 LLM, cung cấp cho bạn một API và một mô hình tư duy. Nó giảm sự phụ thuộc vào nhà cung cấp, đơn giản hóa định tuyến và thêm các tính năng hoạt động như bộ nhớ đệm, thử lại và theo dõi chi phí.Q2: Làm cách nào để sử dụng LiteLLM với OpenAI SDK?Trỏ URL cơ sở của SDK vào proxy LiteLLM và sử dụng khóa API proxy của bạn. Mã của bạn có thể giữ nguyên trong khi proxy hoán đổi nhà cung cấp hoặc mô hình ở chế độ nền.Q3: LiteLLM có thể truyền phát phản hồi và trả về JSON không?Có. Sử dụng `stream=True` để nhận các luồng mã thông báo và `response_format` với lược đồ JSON để thực thi các đầu ra có cấu trúc trên các nhà cung cấp.Q4: Làm cách nào để kiểm soát chi phí trên các nhà cung cấp LLM khác nhau?Bật ghi nhật ký sử dụng và ước tính chi phí, thêm bộ nhớ đệm, đặt giới hạn tốc độ và định tuyến lưu lượng lớn đến các mô hình rẻ hơn thông qua proxy. Giám sát bằng bảng điều khiển cho ngân sách và SLO.Q5: LiteLLM có phù hợp cho các nhóm sản xuất không?Có. Proxy cung cấp xác thực, giới hạn tốc độ, định tuyến, khả năng quan sát và phần mềm trung gian an toàn. Nó được thiết kế như một cổng LLM tập trung quản trị trong khi vẫn giữ cho ứng dụng của bạn tương thích với OpenAI.
Cách Thành Thạo ChatPDF: Tìm Kiếm Thông Tin Nhanh Hơn Trong Tài Liệu Dày

Giải pháp thay thế X Auto-Translation tốt nhất cho tài liệu nhanh chóng, chính xác

Dịch thuật AI Samsung không khả dụng tại Iran? Các giải pháp thực tế

Công cụ dịch tiếng Ba Tư: hướng dẫn thực tiễn để làm việc nhanh hơn, chính xác hơn

Lựa chọn thay thế Grok tốt nhất cho nghiên cứu sâu và có trích dẫn

15 Tính Năng Hàng Đầu Của Trình Tạo Ảnh AI Mà Bạn Sẽ Thực Sự Sử Dụng