What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Cara Menggunakan LiteLLM: Panduan Praktis dengan Contoh, Tips Profesional, dan Alur Kerja Dunia Nyata

Jika Anda pernah berharap setiap API model berperilaku seperti OpenAI, Anda akan menyukai LiteLLM. Ini adalah gateway ringan yang memungkinkan Anda memanggil 100+ LLM dengan antarmuka tunggal yang kompatibel dengan OpenAI—secara lokal dalam kode atau melalui proxy pusat yang dapat Anda bagikan di seluruh tim. Dalam tutorial ini, kita akan membahas instalasi, penggunaan dasar dan lanjutan, streaming, batching, percobaan ulang, caching, pelacakan biaya, dan penerapan proxy LiteLLM dengan dan perutean. Kami juga akan menyertakan contoh Python dan JavaScript serta pola dunia nyata.

Perlu diperhatikan: jika Anda menginginkan cara cepat untuk membuat prototipe prompt, mengajukan pertanyaan di berbagai model, dan mengatur hasil, Sider.AI dapat menjadi pendamping yang bermanfaat untuk penelitian dan iterasi saat Anda menghubungkan tumpukan berbasis LiteLLM Anda. Ini melengkapi alur kerja Anda dengan membantu Anda membandingkan keluaran dan menyempurnakan prompt sebelum Anda mengkodifikasikannya.

Kami akan mengambil jalur praktis & berorientasi solusi, sehingga Anda dapat menyalin-tempel dan mengirimkannya.

Apa itu LiteLLM (dan Mengapa Tim Menggunakannya)

Satu API untuk banyak model: Panggil Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock, dan lainnya menggunakan fungsi gaya OpenAI.

Dua cara untuk menggunakannya:

SDK Klien (Python/JS): Penggunaan cepat dalam skrip, server, buku catatan.

Proxy (LLM Gateway): Layanan terpusat untuk perutean, otentikasi, pencatatan, kontrol biaya, dan observabilitas.

Kompatibilitas : Tukar model tanpa menulis ulang aplikasi Anda.

Fitur operasional: Percobaan ulang, batas waktu, streaming, batching, caching, pelacakan, dan pelaporan biaya langsung dari kotak.

Jika Anda baru memulai, baca sekilas dokumentasi Memulai resmi untuk mendapatkan model mental yang cepat. Untuk contoh langsung, tutorial DataCamp adalah pendamping yang solid dengan kode langkah demi langkah. Jika Anda lebih suka video, ada juga kursus kilat yang ramah pemula.

Mulai Cepat: Instal dan Panggilan Pertama Anda

Instal

# Python
pip install litellm
# Node.js
npm install litellm

Variabel Lingkungan

# Contoh: menggunakan OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

</a19><a24>Tambahkan pra- dan pasca-pemrosesan untuk menghapus PII, memberlakukan filter keamanan, atau memoderasi keluaran sebelum dikembalikan ke klien. Gabungkan moderasi asli penyedia (misalnya, OpenAI, Google) dengan pemeriksaan kebijakan Anda sendiri di proxy. Contoh: memerlukan validasi skema JSON dan meminta kembali jika tidak valid.

from litellm import completion
resp = completion(
model="gpt-4o-mini", # atau "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Streaming, Tools, dan Mode JSON
### Streaming Responses
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Cost and Token Usage
LiteLLM dapat melacak penggunaan token dan memperkirakan biaya per permintaan, model, atau proyek. Dengan proxy, Anda dapat mengekspor penggunaan ke log, dasbor, atau . Ini sangat berharga ketika Anda menggabungkan vendor dengan harga yang berbeda.
---
## The LiteLLM Proxy (LLM Gateway)
Jika Anda adalah tim atau platform, proxy adalah kekuatan super yang sebenarnya: layanan pusat dengan perutean, otentikasi, batas tarif, pencatatan, dan observabilitas. Anda berinteraksi dengannya menggunakan permukaan OpenAI API sehingga kode aplikasi Anda hampir tidak berubah.
### Start the Proxy
```bash
# simplest local run
litellm --port 4000

Secara default, ia mengekspos titik akhir yang kompatibel dengan OpenAI seperti /v1/chat/completions. Arahkan klien OpenAI Anda yang ada ke ` dan Anda siap.

Konfigurasi Penyedia dan Kunci

Buat config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

</a25><a30>- Aktifkan pencatatan permintaan/respons dengan .

litellm --config config.yaml --port 4000

Gunakan Proxy dari SDK OpenAI (Tanpa Perubahan Kode)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Advanced Routing: Latency, Cost, or Reliability
Anda dapat menerapkan strategi perutean seperti:
-  ke model A/B
- Latensi terendah pertama berdasarkan wilayah
- Perutean sadar biaya untuk titik akhir non-kritis
- /coba lagi di seluruh penyedia
<a18>Dengan kebijakan router, Anda dapat mengatakan "lebih suka yang murah, beralih ke premium untuk prompt yang sulit." Ini menawarkan ketersediaan tinggi dan anggaran yang dapat diprediksi.

Cara Menggunakan LiteLLM: Panduan Praktis dengan Contoh, Kiat Pro, dan Alur Kerja Dunia Nyata