What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Wie man LiteLLM nutzt: Ein praktischer Leitfaden mit Beispielen, Profi-Tipps und realen Arbeitsabläufen

Wenn Sie sich schon immer gewünscht haben, dass jede Modell-API so funktioniert wie die von OpenAI, werden Sie LiteLLM lieben. Es ist ein leichtgewichtiges Gateway, das Ihnen erlaubt, über eine einheitliche, OpenAI-kompatible Schnittstelle mehr als 100 LLMs anzusprechen – lokal im Code oder über einen zentralen Proxy, den Sie teamübergreifend teilen können. In diesem Tutorial führen wir Sie durch Installation, grundlegende und fortgeschrittene Nutzung, Streaming, Batching, Wiederholungen, Caching, Kostenverfolgung und das Bereitstellen des LiteLLM-Proxys mit Absicherungen und Routing. Außerdem bieten wir Beispiele in Python und JavaScript und reale Einsatzzwecke.

Wichtig zu erwähnen: Wenn Sie schnell Prompts prototypisieren, Fragen über mehrere Modelle hinweg stellen und Ergebnisse organisieren möchten, kann Sider.AI ein nützlicher Assistent für Forschung und Iteration sein, während Sie Ihren auf LiteLLM basierenden Stack einsetzen. Es ergänzt Ihren Workflow, indem es Ihnen hilft, Ausgaben zu vergleichen und Prompts zu verfeinern, bevor Sie sie kodifizieren.

Wir gehen einen praktischen und lösungsorientierten Weg, damit Sie direkt kopieren, einfügen und loslegen können.

Was ist LiteLLM (und warum Teams es verwenden)

Eine API für viele Modelle: Rufen Sie Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock und weitere über OpenAI-ähnliche Funktionen auf.

Zwei Nutzungsarten:

Client SDKs (Python/JS): Schnelle Nutzung in Skripten, Servern und Notebooks.

Proxy (LLM-Gateway): Zentraler Dienst für Routing, Authentifizierung, Protokollierung, Kostenkontrolle und Beobachtbarkeit.

Nahtlose Kompatibilität: Modelle tauschen, ohne Ihre App umzuschreiben.

Betriebsfeatures: Wiederholungen, Timeouts, Streaming, Batching, Caching, Tracing und Kostenberichte direkt verfügbar.

Wenn Sie gerade anfangen, überfliegen Sie die offiziellen Getting-Started-Dokumente, um ein schnelles mentales Modell zu bekommen. Für praktische Beispiele ist das DataCamp-Tutorial ein hilfreicher Begleiter mit Schritt-für-Schritt-Code. Falls Sie Videos bevorzugen, gibt es auch einen anfängerfreundlichen Crashkurs.

Schnellstart: Installation und Ihr erster Aufruf

Installation

# Python
pip install litellm
# Node.js
npm install litellm

Umgebungsvariablen

# Beispiel: Nutzung von OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Minimale Chat-Komplettierung

from litellm import completion
resp = completion(
model="gpt-4o-mini", # oder "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Streaming, Tools und JSON-Modus
### Streaming-Antworten
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Kosten- und Token-Nutzung
LiteLLM kann Tokenverbrauch verfolgen und die Kosten pro Anfrage, Modell oder Projekt schätzen. Mit dem Proxy können Sie die Nutzung in Logs, Dashboards oder an eine Abrechnungsstelle exportieren. Dies ist unverzichtbar, wenn Sie Anbieter mit unterschiedlichen Preismodellen gleichzeitig verwenden.
---
## Der LiteLLM Proxy (LLM-Gateway)
Für Teams oder Plattformen ist der Proxy die wahre Superkraft: ein zentraler Dienst mit Routing, Authentifizierung, Ratenbegrenzung, Protokollierung und Beobachtbarkeit. Sie kommunizieren mit ihm über die OpenAI-API, sodass Ihr Anwendungscode kaum angepasst werden muss.
### Proxy starten
```bash
# einfachster lokaler Betrieb
litellm --port 4000

Standardmäßig stellt er OpenAI-kompatible Endpunkte wie /v1/chat/completions bereit. Richten Sie Ihren bestehenden OpenAI-Client auf ` ein, und es ist startklar.

Provider und Schlüssel konfigurieren

Erstellen Sie config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Starten mit Config:

litellm --config config.yaml --port 4000

Proxy aus OpenAI SDKs verwenden (kein Codewechsel nötig)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Fortgeschrittenes Routing: Latenz, Kosten oder Zuverlässigkeit
Sie können Routing-Strategien implementieren wie:
- Gewichtetes Round-Robin zum A/B-Testen von Modellen
- Niedrigste Latenz zuerst je nach Region
- Kostenbewusstes Routing für nicht-kritische Endpunkte
- Fallback bei Fehlern/Wiederholungen zwischen Anbietern
Mit einer Router-Policy können Sie sagen: „Bevorzuge günstige Modelle, weiche auf Premium bei schwierigen Prompts aus.“ Das bietet hohe Verfügbarkeit und planbare Budgets.
---
## Absicherungen, Moderation und Sicherheit
Fügen Sie Middleware zur Vor- und Nachverarbeitung hinzu, um PII zu entfernen, Sicherheitsfilter durchzusetzen oder Ausgaben vor der Rückgabe zu moderieren. Kombinieren Sie die native Moderation der Provider (z.B. OpenAI, Google) mit eigenen Prüfungen im Proxy. Beispiel: JSON-Schema-Validierung verlangen und bei Ungültigkeit erneut anfragen.
---
## Beobachtbarkeit und Protokollierung
- Aktivieren Sie Request-/Response-Logging mit Schwärzung sensibler Daten.
- Exportieren Sie Metriken zu Prometheus/Grafana oder Ihrem APM.
- Verfolgen Sie Latenz, Token- und Kostenverbrauch je Endpoint und User.
So wird aus der „Modell-Roulette“ ein verwalteter Dienst mit SLOs und Budgetkontrolle.
---
## Reale Anwendungsfälle
1) Multi-Anbieter-Resilienz
- Primär: schnelles/günstiges Modell; Fallback: präzises Modell bei 429/5xx.
- Vorteil: bessere Verfügbarkeit, Kosteneffizienz und konstante Qualität.
2) Feature-Flag-Model-Upgrades
- Router-Gewichte steuern Canary-Ausrollen eines neuen Modells auf 5% Traffic; Metriken überwachen; bei Stabilität hochfahren.
3) Produktstufen
- Kostenloser Tarif mit kleinen Modellen; Pro-Tarif mit Premium-Modellen.
4) Prompt-Registries und Templates
- Prompts zentral im Proxy speichern, sodass Dienste Verbesserungen ohne Neu-Deploy übernehmen.
5) Teamabrechnung und Budgets
- Ausgaben nach API-Key verfolgen; weiche und harte Limits für Teams oder Produkte durchsetzen.
---
## Sicherheits- und Compliance-Checkliste
- Speichern Sie Provider-Schlüssel sicher im Secret Manager; referenzieren Sie sie über Umgebungsvariablen in der Config.
- Aktivieren Sie Anfragenschwärzung und PII-Entfernung in Logs.
- Nutzen Sie für den Proxy service-spezifische API-Schlüssel und rotieren Sie diese regelmäßig.
- Setzen Sie organisationsweite Ratenlimits und Quoten.
- Fügen Sie Zulassungs- und Sperrlisten für Modelle und Endpunkte hinzu.
---
## Problembehebung: Schnelle Lösungen
- „Unauthorized“ über Proxy: Prüfen Sie `auth.api_keys` und ob Ihr Client `base_url` plus korrekten Schlüssel verwendet.
- Modell nicht gefunden: Stellen Sie sicher, dass `model_list` den aufgerufenen Freundlichen Namen enthält.
- Timeouts: Erhöhen Sie `timeout` oder routen Sie zu einer Region mit geringerer Latenz.
- Ungewöhnliche Ausgaben: Aktivieren Sie JSON-Schema-Validierung; fügen Sie Wiederholungen und Fallbacks hinzu.
- Kostenexplosionen: Aktivieren Sie Caching; routen Sie Massen-Traffic zu günstigeren Modellen; legen Sie Schlüssellimits fest.
Für tiefere Einblicke und aktuelle Features werden die offiziellen Dokumente regelmäßig aktualisiert und sind einen Lesezeichen wert. Tutorials wie das von DataCamp bieten praktische Muster, und das Anfänger-Crashkurs-Video zeigt die Konzepte anschaulich.
---
## Alles zusammen: Referenz-App-Skelett (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI()
@app.post("/ask")
async def ask(req: ChatReq):
    resp = completion(
        model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
        messages=.
    )
    return resp
### FAQ
F1: Was ist LiteLLM und warum sollte ich es statt direkter Provider-SDKs nutzen?
LiteLLM ist ein OpenAI-kompatibles Gateway für über 100 LLMs, das Ihnen eine einzige API und ein klares mentales Modell bietet. Es reduziert Vendor-Lock-in, vereinfacht das Routing und fügt Betriebsfunktionen wie Caching, Wiederholungen und Kostenverfolgung hinzu.
F2: Wie verwende ich LiteLLM mit dem OpenAI SDK?
Richten Sie die Basis-URL des SDK auf den LiteLLM-Proxy und Ihre Proxy-API-Schlüssel ein. Ihr Code bleibt unverändert, während der Proxy die Anbieter und Modelle im Hintergrund tauscht.
F3: Kann LiteLLM Streaming-Antworten liefern und JSON zurückgeben?
Ja. Setzen Sie `stream=True` für Token-Streams und `response_format` mit JSON-Schema, um strukturierte Ausgaben herstellerübergreifend zu erzwingen.
F4: Wie kontrolliere ich die Kosten bei verschiedenen LLM-Anbietern?
Aktivieren Sie Protokollierung und Kostenschätzung, fügen Sie Caching hinzu, setzen Sie Ratenbegrenzungen, und routen Sie Massen-Traffic über den Proxy zu günstigeren Modellen. Überwachen Sie Budgets und SLOs mit Dashboards.
F5: Ist LiteLLM für Produktionsteams geeignet?

Anleitung zur Verwendung von LiteLLM: Ein praktischer Leitfaden mit Beispielen, Profi-Tipps und realen Arbeitsabläufen