Sider.ai
  • Chat
  • Wisebase
  • Werkzeuge
  • Verlängerung
  • Kunden
  • Preisgestaltung
Jetzt downloaden
Anmeldung

Lerne schneller, denke tiefer und wachse klüger mit Sider.

Produkte
Apps
  • Erweiterungen
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
Werkzeuge
  • Web-EntwicklerNew
  • KI-FolienNew
  • KI-Aufsatzschreiber
  • Nano Banana Pro
  • Nano Banana Infographic
  • KI-Bildgenerator
  • Italienischer Gehirnrotor-Generator
  • Hintergrundentferner
  • Hintergrundwechsler
  • Foto-Radierer
  • Textentferner
  • Inpaint
  • Bildverbesserer
  • Erstellen
  • KI-Übersetzer
  • Bildübersetzer
  • PDF-Übersetzer
Sider
  • Kontaktieren Sie uns
  • Hilfezentrum
  • Herunterladen
  • Preise
  • Bildungsplan
  • Was gibt's Neues
  • Blog
  • Gemeinschaft
  • Partner
  • Partnerprogramm
  • Einladen
©2026 Alle Rechte vorbehalten
Nutzungsbedingungen
Datenschutzrichtlinie
  • Startseite
  • Blog
  • KI-Tools
  • Anleitung zur Verwendung von LiteLLM: Ein praktischer Leitfaden mit Beispielen, Profi-Tipps und realen Arbeitsabläufen

Anleitung zur Verwendung von LiteLLM: Ein praktischer Leitfaden mit Beispielen, Profi-Tipps und realen Arbeitsabläufen

Aktualisiert am 25. Sept. 2025

6 min


Wie man LiteLLM nutzt: Ein praktischer Leitfaden mit Beispielen, Profi-Tipps und realen Arbeitsabläufen

Wenn Sie sich schon immer gewünscht haben, dass jede Modell-API so funktioniert wie die von OpenAI, werden Sie LiteLLM lieben. Es ist ein leichtgewichtiges Gateway, das Ihnen erlaubt, über eine einheitliche, OpenAI-kompatible Schnittstelle mehr als 100 LLMs anzusprechen – lokal im Code oder über einen zentralen Proxy, den Sie teamübergreifend teilen können. In diesem Tutorial führen wir Sie durch Installation, grundlegende und fortgeschrittene Nutzung, Streaming, Batching, Wiederholungen, Caching, Kostenverfolgung und das Bereitstellen des LiteLLM-Proxys mit Absicherungen und Routing. Außerdem bieten wir Beispiele in Python und JavaScript und reale Einsatzzwecke.
Wichtig zu erwähnen: Wenn Sie schnell Prompts prototypisieren, Fragen über mehrere Modelle hinweg stellen und Ergebnisse organisieren möchten, kann Sider.AI ein nützlicher Assistent für Forschung und Iteration sein, während Sie Ihren auf LiteLLM basierenden Stack einsetzen. Es ergänzt Ihren Workflow, indem es Ihnen hilft, Ausgaben zu vergleichen und Prompts zu verfeinern, bevor Sie sie kodifizieren.
Wir gehen einen praktischen und lösungsorientierten Weg, damit Sie direkt kopieren, einfügen und loslegen können.

Was ist LiteLLM (und warum Teams es verwenden)

  • Eine API für viele Modelle: Rufen Sie Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock und weitere über OpenAI-ähnliche Funktionen auf.
  • Zwei Nutzungsarten:
  • Client SDKs (Python/JS): Schnelle Nutzung in Skripten, Servern und Notebooks.
  • Proxy (LLM-Gateway): Zentraler Dienst für Routing, Authentifizierung, Protokollierung, Kostenkontrolle und Beobachtbarkeit.
  • Nahtlose Kompatibilität: Modelle tauschen, ohne Ihre App umzuschreiben.
  • Betriebsfeatures: Wiederholungen, Timeouts, Streaming, Batching, Caching, Tracing und Kostenberichte direkt verfügbar.
Wenn Sie gerade anfangen, überfliegen Sie die offiziellen Getting-Started-Dokumente, um ein schnelles mentales Modell zu bekommen. Für praktische Beispiele ist das DataCamp-Tutorial ein hilfreicher Begleiter mit Schritt-für-Schritt-Code. Falls Sie Videos bevorzugen, gibt es auch einen anfängerfreundlichen Crashkurs.

Schnellstart: Installation und Ihr erster Aufruf

Installation

# Python
pip install litellm
# Node.js
npm install litellm

Umgebungsvariablen

# Beispiel: Nutzung von OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Minimale Chat-Komplettierung

from litellm import completion
resp = completion(
model="gpt-4o-mini", # oder "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Streaming, Tools und JSON-Modus
### Streaming-Antworten
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Kosten- und Token-Nutzung
LiteLLM kann Tokenverbrauch verfolgen und die Kosten pro Anfrage, Modell oder Projekt schätzen. Mit dem Proxy können Sie die Nutzung in Logs, Dashboards oder an eine Abrechnungsstelle exportieren. Dies ist unverzichtbar, wenn Sie Anbieter mit unterschiedlichen Preismodellen gleichzeitig verwenden.
---
## Der LiteLLM Proxy (LLM-Gateway)
Für Teams oder Plattformen ist der Proxy die wahre Superkraft: ein zentraler Dienst mit Routing, Authentifizierung, Ratenbegrenzung, Protokollierung und Beobachtbarkeit. Sie kommunizieren mit ihm über die OpenAI-API, sodass Ihr Anwendungscode kaum angepasst werden muss.
### Proxy starten
```bash
# einfachster lokaler Betrieb
litellm --port 4000
Standardmäßig stellt er OpenAI-kompatible Endpunkte wie /v1/chat/completions bereit. Richten Sie Ihren bestehenden OpenAI-Client auf ` ein, und es ist startklar.

Provider und Schlüssel konfigurieren

Erstellen Sie config.yaml:
model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123
Starten mit Config:
litellm --config config.yaml --port 4000

Proxy aus OpenAI SDKs verwenden (kein Codewechsel nötig)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Fortgeschrittenes Routing: Latenz, Kosten oder Zuverlässigkeit
Sie können Routing-Strategien implementieren wie:
- Gewichtetes Round-Robin zum A/B-Testen von Modellen
- Niedrigste Latenz zuerst je nach Region
- Kostenbewusstes Routing für nicht-kritische Endpunkte
- Fallback bei Fehlern/Wiederholungen zwischen Anbietern
Mit einer Router-Policy können Sie sagen: „Bevorzuge günstige Modelle, weiche auf Premium bei schwierigen Prompts aus.“ Das bietet hohe Verfügbarkeit und planbare Budgets.
---
## Absicherungen, Moderation und Sicherheit
Fügen Sie Middleware zur Vor- und Nachverarbeitung hinzu, um PII zu entfernen, Sicherheitsfilter durchzusetzen oder Ausgaben vor der Rückgabe zu moderieren. Kombinieren Sie die native Moderation der Provider (z.B. OpenAI, Google) mit eigenen Prüfungen im Proxy. Beispiel: JSON-Schema-Validierung verlangen und bei Ungültigkeit erneut anfragen.
---
## Beobachtbarkeit und Protokollierung
- Aktivieren Sie Request-/Response-Logging mit Schwärzung sensibler Daten.
- Exportieren Sie Metriken zu Prometheus/Grafana oder Ihrem APM.
- Verfolgen Sie Latenz, Token- und Kostenverbrauch je Endpoint und User.
So wird aus der „Modell-Roulette“ ein verwalteter Dienst mit SLOs und Budgetkontrolle.
---
## Reale Anwendungsfälle
1) Multi-Anbieter-Resilienz
- Primär: schnelles/günstiges Modell; Fallback: präzises Modell bei 429/5xx.
- Vorteil: bessere Verfügbarkeit, Kosteneffizienz und konstante Qualität.
2) Feature-Flag-Model-Upgrades
- Router-Gewichte steuern Canary-Ausrollen eines neuen Modells auf 5% Traffic; Metriken überwachen; bei Stabilität hochfahren.
3) Produktstufen
- Kostenloser Tarif mit kleinen Modellen; Pro-Tarif mit Premium-Modellen.
4) Prompt-Registries und Templates
- Prompts zentral im Proxy speichern, sodass Dienste Verbesserungen ohne Neu-Deploy übernehmen.
5) Teamabrechnung und Budgets
- Ausgaben nach API-Key verfolgen; weiche und harte Limits für Teams oder Produkte durchsetzen.
---
## Sicherheits- und Compliance-Checkliste
- Speichern Sie Provider-Schlüssel sicher im Secret Manager; referenzieren Sie sie über Umgebungsvariablen in der Config.
- Aktivieren Sie Anfragenschwärzung und PII-Entfernung in Logs.
- Nutzen Sie für den Proxy service-spezifische API-Schlüssel und rotieren Sie diese regelmäßig.
- Setzen Sie organisationsweite Ratenlimits und Quoten.
- Fügen Sie Zulassungs- und Sperrlisten für Modelle und Endpunkte hinzu.
---
## Problembehebung: Schnelle Lösungen
- „Unauthorized“ über Proxy: Prüfen Sie `auth.api_keys` und ob Ihr Client `base_url` plus korrekten Schlüssel verwendet.
- Modell nicht gefunden: Stellen Sie sicher, dass `model_list` den aufgerufenen Freundlichen Namen enthält.
- Timeouts: Erhöhen Sie `timeout` oder routen Sie zu einer Region mit geringerer Latenz.
- Ungewöhnliche Ausgaben: Aktivieren Sie JSON-Schema-Validierung; fügen Sie Wiederholungen und Fallbacks hinzu.
- Kostenexplosionen: Aktivieren Sie Caching; routen Sie Massen-Traffic zu günstigeren Modellen; legen Sie Schlüssellimits fest.
Für tiefere Einblicke und aktuelle Features werden die offiziellen Dokumente regelmäßig aktualisiert und sind einen Lesezeichen wert. Tutorials wie das von DataCamp bieten praktische Muster, und das Anfänger-Crashkurs-Video zeigt die Konzepte anschaulich.
---
## Alles zusammen: Referenz-App-Skelett (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI()
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
)
return resp
### FAQ
F1: Was ist LiteLLM und warum sollte ich es statt direkter Provider-SDKs nutzen?
LiteLLM ist ein OpenAI-kompatibles Gateway für über 100 LLMs, das Ihnen eine einzige API und ein klares mentales Modell bietet. Es reduziert Vendor-Lock-in, vereinfacht das Routing und fügt Betriebsfunktionen wie Caching, Wiederholungen und Kostenverfolgung hinzu.
F2: Wie verwende ich LiteLLM mit dem OpenAI SDK?
Richten Sie die Basis-URL des SDK auf den LiteLLM-Proxy und Ihre Proxy-API-Schlüssel ein. Ihr Code bleibt unverändert, während der Proxy die Anbieter und Modelle im Hintergrund tauscht.
F3: Kann LiteLLM Streaming-Antworten liefern und JSON zurückgeben?
Ja. Setzen Sie `stream=True` für Token-Streams und `response_format` mit JSON-Schema, um strukturierte Ausgaben herstellerübergreifend zu erzwingen.
F4: Wie kontrolliere ich die Kosten bei verschiedenen LLM-Anbietern?
Aktivieren Sie Protokollierung und Kostenschätzung, fügen Sie Caching hinzu, setzen Sie Ratenbegrenzungen, und routen Sie Massen-Traffic über den Proxy zu günstigeren Modellen. Überwachen Sie Budgets und SLOs mit Dashboards.
F5: Ist LiteLLM für Produktionsteams geeignet?

Aktuelle Artikel
Wie man ChatPDF meistert: Schnellere Einblicke in umfangreiche Dokumente

Wie man ChatPDF meistert: Schnellere Einblicke in umfangreiche Dokumente

Die beste Alternative zu X Auto-Translation für schnelle und präzise Dokumente

Die beste Alternative zu X Auto-Translation für schnelle und präzise Dokumente

Samsung KI-Übersetzung in Iran nicht verfügbar? Praktische Lösungen

Samsung KI-Übersetzung in Iran nicht verfügbar? Praktische Lösungen

Persische Übersetzungstools: Ein praktischer Leitfaden für schnellere und präzisere Arbeit

Persische Übersetzungstools: Ein praktischer Leitfaden für schnellere und präzisere Arbeit

Die beste Grok-Alternative für tiefgehende, zitierte Forschung

Die beste Grok-Alternative für tiefgehende, zitierte Forschung

Die 15 wichtigsten Funktionen von KI-Bildgeneratoren, die Sie wirklich nutzen werden

Die 15 wichtigsten Funktionen von KI-Bildgeneratoren, die Sie wirklich nutzen werden