Aktualisiert am 25. Sept. 2025
6 min
# Pythonpip install litellm# Node.jsnpm install litellm# Beispiel: Nutzung von OpenAI + Anthropic + Mistralexport OPENAI_API_KEY=sk-...export ANTHROPIC_API_KEY=sk-ant-...export MISTRAL_API_KEY=sk-mis-...from litellm import completionresp = completion(model="gpt-4o-mini", # oder "anthropic/claude-3-5-sonnet", "mistral/mistral-large"messages=.---## Streaming, Tools und JSON-Modus### Streaming-Antworten```pythonfrom litellm import completionfor chunk in completion(model="gpt-4o-mini",messages=.### Kosten- und Token-NutzungLiteLLM kann Tokenverbrauch verfolgen und die Kosten pro Anfrage, Modell oder Projekt schätzen. Mit dem Proxy können Sie die Nutzung in Logs, Dashboards oder an eine Abrechnungsstelle exportieren. Dies ist unverzichtbar, wenn Sie Anbieter mit unterschiedlichen Preismodellen gleichzeitig verwenden.---## Der LiteLLM Proxy (LLM-Gateway)Für Teams oder Plattformen ist der Proxy die wahre Superkraft: ein zentraler Dienst mit Routing, Authentifizierung, Ratenbegrenzung, Protokollierung und Beobachtbarkeit. Sie kommunizieren mit ihm über die OpenAI-API, sodass Ihr Anwendungscode kaum angepasst werden muss.### Proxy starten```bash# einfachster lokaler Betrieblitellm --port 4000/v1/chat/completions bereit. Richten Sie Ihren bestehenden OpenAI-Client auf ` ein, und es ist startklar.config.yaml:model_list:- model_name: gpt-4o-minilitellm_params:model: openai/gpt-4o-miniapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}router:strategy: simple_weightedroutes:- model: gpt-4o-miniweight: 0.6- model: claude-3-5-sonnetweight: 0.4rate_limits:requests_per_minute: 120logging:level: infosink: stdoutauth:api_keys:- key: svc-app-123litellm --config config.yaml --port 4000from openai import OpenAIclient = OpenAI(base_url=" api_key="svc-app-123")resp = client.chat.completions.create(model="gpt-4o-mini",messages=.---## Fortgeschrittenes Routing: Latenz, Kosten oder ZuverlässigkeitSie können Routing-Strategien implementieren wie:- Gewichtetes Round-Robin zum A/B-Testen von Modellen- Niedrigste Latenz zuerst je nach Region- Kostenbewusstes Routing für nicht-kritische Endpunkte- Fallback bei Fehlern/Wiederholungen zwischen AnbieternMit einer Router-Policy können Sie sagen: „Bevorzuge günstige Modelle, weiche auf Premium bei schwierigen Prompts aus.“ Das bietet hohe Verfügbarkeit und planbare Budgets.---## Absicherungen, Moderation und SicherheitFügen Sie Middleware zur Vor- und Nachverarbeitung hinzu, um PII zu entfernen, Sicherheitsfilter durchzusetzen oder Ausgaben vor der Rückgabe zu moderieren. Kombinieren Sie die native Moderation der Provider (z.B. OpenAI, Google) mit eigenen Prüfungen im Proxy. Beispiel: JSON-Schema-Validierung verlangen und bei Ungültigkeit erneut anfragen.---## Beobachtbarkeit und Protokollierung- Aktivieren Sie Request-/Response-Logging mit Schwärzung sensibler Daten.- Exportieren Sie Metriken zu Prometheus/Grafana oder Ihrem APM.- Verfolgen Sie Latenz, Token- und Kostenverbrauch je Endpoint und User.So wird aus der „Modell-Roulette“ ein verwalteter Dienst mit SLOs und Budgetkontrolle.---## Reale Anwendungsfälle1) Multi-Anbieter-Resilienz- Primär: schnelles/günstiges Modell; Fallback: präzises Modell bei 429/5xx.- Vorteil: bessere Verfügbarkeit, Kosteneffizienz und konstante Qualität.2) Feature-Flag-Model-Upgrades- Router-Gewichte steuern Canary-Ausrollen eines neuen Modells auf 5% Traffic; Metriken überwachen; bei Stabilität hochfahren.3) Produktstufen- Kostenloser Tarif mit kleinen Modellen; Pro-Tarif mit Premium-Modellen.4) Prompt-Registries und Templates- Prompts zentral im Proxy speichern, sodass Dienste Verbesserungen ohne Neu-Deploy übernehmen.5) Teamabrechnung und Budgets- Ausgaben nach API-Key verfolgen; weiche und harte Limits für Teams oder Produkte durchsetzen.---## Sicherheits- und Compliance-Checkliste- Speichern Sie Provider-Schlüssel sicher im Secret Manager; referenzieren Sie sie über Umgebungsvariablen in der Config.- Aktivieren Sie Anfragenschwärzung und PII-Entfernung in Logs.- Nutzen Sie für den Proxy service-spezifische API-Schlüssel und rotieren Sie diese regelmäßig.- Setzen Sie organisationsweite Ratenlimits und Quoten.- Fügen Sie Zulassungs- und Sperrlisten für Modelle und Endpunkte hinzu.---## Problembehebung: Schnelle Lösungen- „Unauthorized“ über Proxy: Prüfen Sie `auth.api_keys` und ob Ihr Client `base_url` plus korrekten Schlüssel verwendet.- Modell nicht gefunden: Stellen Sie sicher, dass `model_list` den aufgerufenen Freundlichen Namen enthält.- Timeouts: Erhöhen Sie `timeout` oder routen Sie zu einer Region mit geringerer Latenz.- Ungewöhnliche Ausgaben: Aktivieren Sie JSON-Schema-Validierung; fügen Sie Wiederholungen und Fallbacks hinzu.- Kostenexplosionen: Aktivieren Sie Caching; routen Sie Massen-Traffic zu günstigeren Modellen; legen Sie Schlüssellimits fest.Für tiefere Einblicke und aktuelle Features werden die offiziellen Dokumente regelmäßig aktualisiert und sind einen Lesezeichen wert. Tutorials wie das von DataCamp bieten praktische Muster, und das Anfänger-Crashkurs-Video zeigt die Konzepte anschaulich.---## Alles zusammen: Referenz-App-Skelett (Python FastAPI)```python# app.pyfrom fastapi import FastAPIfrom pydantic import BaseModelfrom litellm import completionimport osclass ChatReq(BaseModel):question: strapp = FastAPI()@app.post("/ask")async def ask(req: ChatReq): resp = completion( model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"), messages=. ) return resp### FAQF1: Was ist LiteLLM und warum sollte ich es statt direkter Provider-SDKs nutzen?LiteLLM ist ein OpenAI-kompatibles Gateway für über 100 LLMs, das Ihnen eine einzige API und ein klares mentales Modell bietet. Es reduziert Vendor-Lock-in, vereinfacht das Routing und fügt Betriebsfunktionen wie Caching, Wiederholungen und Kostenverfolgung hinzu.F2: Wie verwende ich LiteLLM mit dem OpenAI SDK?Richten Sie die Basis-URL des SDK auf den LiteLLM-Proxy und Ihre Proxy-API-Schlüssel ein. Ihr Code bleibt unverändert, während der Proxy die Anbieter und Modelle im Hintergrund tauscht.F3: Kann LiteLLM Streaming-Antworten liefern und JSON zurückgeben?Ja. Setzen Sie `stream=True` für Token-Streams und `response_format` mit JSON-Schema, um strukturierte Ausgaben herstellerübergreifend zu erzwingen.F4: Wie kontrolliere ich die Kosten bei verschiedenen LLM-Anbietern?Aktivieren Sie Protokollierung und Kostenschätzung, fügen Sie Caching hinzu, setzen Sie Ratenbegrenzungen, und routen Sie Massen-Traffic über den Proxy zu günstigeren Modellen. Überwachen Sie Budgets und SLOs mit Dashboards.F5: Ist LiteLLM für Produktionsteams geeignet?
Wie man ChatPDF meistert: Schnellere Einblicke in umfangreiche Dokumente

Die beste Alternative zu X Auto-Translation für schnelle und präzise Dokumente

Samsung KI-Übersetzung in Iran nicht verfügbar? Praktische Lösungen

Persische Übersetzungstools: Ein praktischer Leitfaden für schnellere und präzisere Arbeit

Die beste Grok-Alternative für tiefgehende, zitierte Forschung

Die 15 wichtigsten Funktionen von KI-Bildgeneratoren, die Sie wirklich nutzen werden