What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Hoe LiteLLM te gebruiken: Een praktische gids met voorbeelden, pro-tips en real-world workflows

Als je ooit hebt gewenst dat elke model-API zich gedroeg als die van OpenAI, dan zul je LiteLLM geweldig vinden. Het is een lichtgewicht gateway waarmee je meer dan 100 LLM's kunt aanroepen met één enkele, OpenAI-compatibele interface—lokaal in code of via een centrale proxy die je kunt delen met teams. In deze tutorial behandelen we de installatie, basis- en geavanceerd gebruik, streaming, batchverwerking, retries, caching, kosten tracking en het implementeren van de LiteLLM proxy met guardrails en routing. We zullen ook Python- en JavaScript-voorbeelden en real-world patronen opnemen.

Belangrijk om te vermelden: als je een snelle manier wilt om prompts te prototypen, vragen te stellen aan meerdere modellen en resultaten te organiseren, kan Sider.AI een handige sidekick zijn voor onderzoek en iteratie terwijl je je op LiteLLM gebaseerde stack aan het opzetten bent. Het is een aanvulling op je workflow door je te helpen outputs te vergelijken en prompts te verfijnen voordat je ze codeert.

We volgen een praktische & oplossingsgerichte aanpak, zodat je kunt kopiëren, plakken en verzenden.

Wat is LiteLLM (en waarom teams het gebruiken)

Eén API voor vele modellen: Roep Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock en meer aan met behulp van OpenAI-stijl functies.

Twee manieren om het te gebruiken:

Client SDK's (Python/JS): Snel gebruik in scripts, servers, notebooks.

Proxy (LLM Gateway): Gecentraliseerde service voor routing, authenticatie, logging, kostenbeheersing en observability.

Drop-in compatibiliteit: Vervang modellen zonder je app te herschrijven.

Operationele functies: Retries, timeouts, streaming, batchverwerking, caching, tracing en kostenrapportage out-of-the-box.

Als je net begint, bekijk dan de officiële Getting Started documentatie voor een snel mentaal model. Voor praktische voorbeelden is de DataCamp tutorial een goede metgezel met stapsgewijze code. Als je de voorkeur geeft aan video, is er ook een beginner-vriendelijke crash course.

Quick Start: Installeren en je eerste aanroep

Installeren

# Python
pip install litellm
# Node.js
npm install litellm

Omgevingsvariabelen

# Voorbeeld: gebruik van OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Minimale Chat Completion

from litellm import completion
resp = completion(
model="gpt-4o-mini", # of "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Streaming, Tools, en JSON Mode
### Streaming Responses
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Kosten en Token Gebruik
LiteLLM kan token gebruik volgen en de kosten per request, model, of project inschatten. Met de proxy kun je het gebruik exporteren naar logs, dashboards, of een billing sink. Dit is van onschatbare waarde wanneer je vendors mixt met verschillende prijzen.
---
## De LiteLLM Proxy (LLM Gateway)
Als je een team of platform bent, is de proxy de echte superkracht: een centrale service met routing, authenticatie, rate limits, logging en observability. Je interageert ermee met behulp van de OpenAI API surface, zodat je app code nauwelijks verandert.
### Start de Proxy
```bash
# eenvoudigste lokale run
litellm --port 4000

Standaard exposeert het OpenAI-compatibele endpoints zoals /v1/chat/completions. Richt je bestaande OpenAI client op ` en je bent klaar.

Configureer Providers en Keys

Maak config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Run met config:

litellm --config config.yaml --port 4000

Gebruik de Proxy van OpenAI SDK's (Geen Code Wijzigingen)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Geavanceerde Routing: Latency, Kosten, of Betrouwbaarheid
Je kunt routing strategieën implementeren zoals:
- Weighted round-robin naar A/B modellen
- Lowest-latency-first per regio
- Cost-aware routing voor niet-kritieke endpoints
- Fallback-on-error/retry over providers
Met een router policy kun je zeggen "geef de voorkeur aan goedkoop, val terug op premium voor moeilijke prompts." Dit biedt hoge beschikbaarheid en voorspelbare budgetten.
---
## Guardrails, Moderatie, en Veiligheid
Voeg pre- en post-processing middleware toe om PII te strippen, veiligheidsfilters af te dwingen of outputs te modereren voordat ze worden teruggestuurd naar clients. Combineer provider-native moderatie (bijv. OpenAI, Google) met je eigen policy checks in de proxy. Voorbeeld: vereis JSON schema validatie en vraag opnieuw wanneer ongeldig.
---
## Observability en Logging
- Schakel request/response logging in met redaction.
- Exporteer metrics naar Prometheus/Grafana of je APM.
- Trace latency, tokens en kosten per endpoint en user.
Dit verandert "model roulette" in een managed service met SLO's en budgetten.
---
## Real-World Gebruikspatronen
1) Multi-vendor resilience
- Primair: snel/goedkoop model; Fallback: high-accuracy model op 429/5xx.
- Voordelen: betere uptime, kostenbeheersing en stabiele kwaliteit.
2) Feature flag model upgrades
- Gebruik router weights om een nieuw model canary te testen op 5% van het verkeer; monitor metrics; ramp up wanneer stabiel.
3) Product tiers
- Free tier gerouteerd naar kleine modellen; Pro tier naar premium modellen.
4) Prompt registries en templates
- Centraliseer prompts in de proxy zodat services verbeteringen erven zonder redeploys.
5) Team billing en budgetten
- Volg spend per API key; dwing soft en hard limits af per team of product.
---
## Security en Compliance Checklist
- Bewaar provider keys in je secret manager; refereer via env vars in config.
- Schakel request redaction en PII scrubbing in logs.
- Gebruik per-service API keys voor de proxy; roteer regelmatig.
- Stel org-wide rate limits en quota's in.
- Voeg allowlists/denylists toe voor modellen en endpoints.
---
## Troubleshooting: Fast Fixes
- “Unauthorized” via proxy: Check `auth.api_keys` en dat je client `base_url` + correcte key gebruikt.
- Model not found: Zorg ervoor dat `model_list` de friendly name bevat die je aanroept.
- Timeouts: Verhoog `timeout` of route naar een lager-latency provider region.
- Weird outputs: Schakel JSON schema + validatie in; voeg retries en fallbacks toe.
- Cost spikes: Schakel caching in; route bulk traffic naar goedkopere modellen; stel per-key quota's in.
Voor diepere duiken en de nieuwste functies worden de officiële documenten regelmatig bijgewerkt en zijn ze de moeite waard om te bookmarken. Tutorials zoals DataCamp's guide zijn geweldig voor praktische patronen, en de beginner crash course video kan je helpen de concepten in actie te zien.
---
## Zet alles samen: Referentie App Skeleton (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### FAQ
Q1: Wat is LiteLLM en waarom het gebruiken over direct provider SDK's?
LiteLLM is een OpenAI-compatibele gateway voor 100+ LLM's, waardoor je één API en één mentaal model hebt. Het vermindert vendor lock-in, vereenvoudigt routing en voegt ops functies toe zoals caching, retries en kosten tracking.
Q2: Hoe gebruik ik LiteLLM met de OpenAI SDK?
Richt de SDK's base URL naar de LiteLLM proxy en gebruik je proxy API key. Je code kan hetzelfde blijven terwijl de proxy providers of modellen achter de schermen verwisselt.
Q3: Kan LiteLLM responses streamen en JSON retourneren?
Ja. Gebruik `stream=True` om token streams te krijgen, en `response_format` met JSON schema om gestructureerde outputs af te dwingen over providers.
Q4: Hoe controleer ik de kosten over verschillende LLM providers?
Schakel usage logging en kosten inschatting in, voeg caching toe, stel rate limits in en route bulk traffic naar goedkopere modellen via de proxy. Monitor met dashboards voor budgetten en SLO's.
Q5: Is LiteLLM geschikt voor productie teams?
Ja. De proxy biedt authenticatie, rate limits, routing, observability en veiligheid middleware. Het is ontworpen als een LLM gateway die governance centraliseert terwijl je app OpenAI-compatibel blijft.