What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Cara Menggunakan LiteLLM: Panduan Praktikal dengan Contoh, Petua Pro, dan Aliran Kerja Dunia Sebenar

Jika anda pernah berharap setiap API model berfungsi seperti OpenAI, anda pasti akan menyukai LiteLLM. Ia adalah pintu masuk ringan yang membolehkan anda memanggil lebih 100 LLM dengan satu antara muka yang serasi dengan OpenAI—secara tempatan dalam kod atau melalui proksi pusat yang boleh dikongsi bersama pasukan. Dalam tutorial ini, kami akan membimbing anda melalui pemasangan, penggunaan asas dan lanjutan, streaming, batching, retries, caching, penjejakan kos, serta penyebaran proksi LiteLLM dengan kawalan keselamatan dan penghalaan. Kami juga akan sertakan contoh Python dan JavaScript serta corak dunia sebenar.

Perlu diperhatikan: jika anda ingin cara pantas untuk prototaip prompt, bertanya soalan merentasi pelbagai model, dan menyusun hasil, Sider.AI boleh menjadi pembantu yang berguna untuk penyelidikan dan iterasi sambil anda menghubungkan tumpukan berasaskan LiteLLM anda. Ia melengkapkan aliran kerja anda dengan membantu membandingkan output dan memperhalusi prompt sebelum anda menkodifikasikannya.

Kami akan mengambil pendekatan praktikal & berorientasikan penyelesaian, supaya anda boleh salin-tampal dan terus lancarkan.

Apakah LiteLLM (dan Kenapa Pasukan Menggunakannya)

Satu API untuk banyak model: Panggil Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock, dan banyak lagi menggunakan fungsi gaya OpenAI.

Dua cara menggunakannya:

Client SDK (Python/JS): Penggunaan cepat dalam skrip, pelayan, notebook.

Proksi (Pintu Gerbang LLM): Perkhidmatan pusat untuk penghalaan, pengesahan, log, kawalan kos, dan kebolehamatan.

Keserasian drop-in: Tukar model tanpa menulis semula aplikasi anda.

Ciri operasi: Retries, had masa, streaming, batching, caching, penjejakan, dan laporan kos sedia ada.

Jika anda baru bermula, lihat dokumen Memulakan Rasmi untuk gambaran mental cepat. Untuk contoh praktikal, tutorial DataCamp adalah teman yang baik dengan kod langkah demi langkah. Jika anda suka video, ada juga kursus ringkas mesra pemula.

Mula Pantas: Pasang dan Panggilan Pertama Anda

Pasang

# Python
pip install litellm
# Node.js
npm install litellm

Pembolehubah Persekitaran

# Contoh: menggunakan OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Penyempurnaan Perbualan Minimum

from litellm import completion
resp = completion(
model="gpt-4o-mini", # atau "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Streaming, Alat, dan Mod JSON
### Streaming Respons
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Kos dan Penggunaan Token
LiteLLM boleh menjejak penggunaan token dan menganggarkan kos bagi setiap permintaan, model, atau projek. Dengan proksi, anda boleh mengeksport penggunaan ke log, papan pemuka, atau sink pengebilan. Ini sangat berguna apabila anda menggunakan vendor dengan harga berbeza-beza.
---
## Proksi LiteLLM (Pintu Gerbang LLM)
Jika anda sebuah pasukan atau platform, proksi adalah kuasa sebenar: perkhidmatan pusat dengan penghalaan, pengesahan, had kadar, logging, dan kebolehamatan. Anda berinteraksi dengannya menggunakan permukaan API OpenAI supaya kod aplikasi anda hampir tidak berubah.
### Mulakan Proksi
```bash
# menjalankan yang paling mudah secara tempatan
litellm --port 4000

Secara lalai, ia mendedahkan titik akhir yang serasi dengan OpenAI seperti /v1/chat/completions. Tetapkan klien OpenAI sedia ada anda kepada ` dan anda sudah bersedia.

Konfigurasikan Penyedia dan Kunci

Cipta config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Jalankan dengan konfigurasi:

litellm --config config.yaml --port 4000

Gunakan Proksi dari SDK OpenAI (Tiada Perubahan Kod)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Penghalaan Lanjutan: Latensi, Kos, atau Kebolehpercayaan
Anda boleh melaksanakan strategi penghalaan seperti:
- Weighted round-robin untuk model A/B
- Latensi terendah terlebih dahulu mengikut rantau
- Penghalaan berkesedaran kos untuk titik akhir yang tidak kritikal
- Fallback-on-error/retry merentasi penyedia
Dengan polisi penghalaan, anda boleh menetapkan "utamakan yang murah, fallback ke premium untuk prompt sukar." Ini menawarkan ketersediaan tinggi dan bajet yang boleh dijangka.
---
## Kawalan Keselamatan, Moderasi, dan Keselamatan
Tambah middleware pra dan pasca-pemprosesan untuk menghilangkan PII, menguatkuasakan penapis keselamatan, atau memoderasi output sebelum dihantar kembali ke klien. Gabungkan moderasi asli penyedia (contohnya, OpenAI, Google) dengan pemeriksaan polisi anda sendiri dalam proksi. Contoh: memerlukan pengesahan skema JSON dan tanya semula apabila tidak sah.
---
## Kebolehamatan dan Logging
- Hidupkan logging permintaan/respons dengan penyamaran data sensitif.
- Eksport metrik ke Prometheus/Grafana atau APM anda.
- Jejak latensi, token, dan kos mengikut titik akhir dan pengguna.
Ini menjadikan “roulette model” sebagai perkhidmatan yang diurus dengan SLO dan bajet.
---
## Corak Penggunaan Dunia Sebenar
1) Ketahanan pelbagai vendor
- Utama: model pantas/murah; Fallback: model berkualiti tinggi pada 429/5xx.
- Manfaat: ketersediaan lebih baik, kawalan kos, dan kualiti stabil.
2) Peningkatan model menggunakan feature flag
- Gunakan berat penghala untuk menguji model baru pada 5% trafik; pantau metrik; tingkatkan apabila stabil.
3) Peringkat produk
- Peringkat percuma dialihkan ke model kecil; peringkat Pro ke model premium.
4) Daftar dan template prompt
- Pusatkan prompt dalam proksi supaya perkhidmatan mewarisi penambahbaikan tanpa perlu penyebaran semula.
5) Pengebilan dan bajet pasukan
- Jejak perbelanjaan mengikut kunci API; tetapkan had lembut dan keras setiap pasukan atau produk.
---
## Senarai Semak Keselamatan dan Pematuhan
- Simpan kunci penyedia dalam pengurus rahsia anda; rujuk melalui pembolehubah persekitaran dalam konfigurasi.
- Hidupkan penyamaran permintaan dan pembersihan PII dalam log.
- Gunakan kunci API perkhidmatan untuk proksi; putar secara berkala.
- Tetapkan had kadar dan kuota keseluruhan organisasi.
- Tambah senarai putih/senarai larangan untuk model dan titik akhir.
---
## Penyelesaian Masalah: Pembetulan Pantas
- "Unauthorized" melalui proksi: Semak `auth.api_keys` dan pastikan klien anda menggunakan `base_url` + kunci yang betul.
- Model tidak ditemui: Pastikan `model_list` mengandungi nama mesra yang anda panggil.
- Had masa tamat: Tingkatkan `timeout` atau alihkan ke rantau penyedia dengan latensi lebih rendah.
- Output pelik: Hidupkan skema JSON + pengesahan; tambah retries dan fallback.
- Lonjakan kos: Hidupkan caching; arahkan trafik besar ke model lebih murah; tetapkan kuota per kunci.
Untuk penerokaan lebih mendalam dan ciri terkini, dokumen rasmi sentiasa dikemas kini dan patut ditanda halaman. Tutorial seperti panduan DataCamp baik untuk corak praktikal, dan video kursus kilat mesra pemula boleh membantu anda melihat konsep dalam tindakan.
---
## Satukan Semua: Rangka Aplikasi Rujukan (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI()
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### FAQ
Q1:Apakah LiteLLM dan kenapa menggunakannya berbanding SDK penyedia terus?
LiteLLM ialah pintu masuk serasi OpenAI untuk lebih 100 LLM, memberikan anda satu API dan satu model mental. Ia mengurangkan kekangan vendor, memudahkan penghalaan, dan menambah ciri operasi seperti caching, retries, dan penjejakan kos.
Q2:Bagaimana saya menggunakan LiteLLM dengan SDK OpenAI?
Tetapkan base URL SDK kepada proksi LiteLLM dan gunakan kunci API proksi anda. Kod anda boleh kekal sama sementara proksi menukar penyedia atau model secara dalaman.
Q3:Bolehkah LiteLLM membuat streaming respons dan mengembalikan JSON?
Boleh. Gunakan `stream=True` untuk dapatkan aliran token, dan `response_format` dengan skema JSON untuk menguatkuasakan output berstruktur merentasi penyedia.
Q4:Bagaimana saya kawal kos merentasi penyedia LLM yang berbeza?
Hidupkan log penggunaan dan anggaran kos, tambah caching, tetapkan had kadar, dan arahkan trafik besar ke model lebih murah melalui proksi. Pantau dengan papan pemuka untuk bajet dan SLO.
Q5:Adakah LiteLLM sesuai untuk pasukan produksi?
Ya. Proksi menyediakan pengesahan, had kadar, penghalaan, kebolehamatan, dan middleware keselamatan. Ia direka sebagai pintu gerbang LLM yang memusatkan tadbir urus sambil mengekalkan keserasian OpenAI untuk aplikasi anda.

Cara Menggunakan LiteLLM: Panduan Praktikal dengan Contoh, Tips Pro, dan Alur Kerja Dunia Sebenar