What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Sådan bruger du LiteLLM: En praktisk guide med eksempler, pro tips og virkelige arbejdsgange

Hvis du nogensinde har ønsket, at alle model-API’er opførte sig som OpenAI’s, vil du elske LiteLLM. Det er en letvægtsgateway, der giver dig mulighed for at kalde på over 100 LLM’er med én enkelt OpenAI-kompatibel grænseflade – enten lokalt i koden eller via en central proxy, du kan dele på tværs af teams. I denne tutorial gennemgår vi installation, grundlæggende og avanceret brug, streaming, batching, retries, caching, omkostningssporing og udrulning af LiteLLM-proxyen med sikkerhedsforanstaltninger og routing. Vi inkluderer også Python- og JavaScript-eksempler samt virkelige brugsmønstre.

Vær opmærksom på: hvis du vil have en hurtig måde at prototype prompts på, stille spørgsmål til flere modeller og organisere resultater, kan Sider.AI være din hjælper til forskning og iteration, mens du opsætter din LiteLLM-baserede stack. Det komplementerer din arbejdsgang ved at hjælpe dig med at sammenligne outputs og finjustere prompts, inden du koder dem.

Vi går en praktisk og løsningsorienteret vej, så du kan copy-paste og komme i gang med det samme.

Hvad er LiteLLM (og hvorfor bruger teams det)

Én API til mange modeller: Brug Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock og flere med OpenAI-stil funktioner.

To måder at bruge det på:

Client SDK’er (Python/JS): Hurtig brug i scripts, servere og notebooks.

Proxy (LLM Gateway): Centraliseret service til routing, autentificering, logging, omkostningsstyring og overvågning.

Drop-in kompatibilitet: Skift modeller uden at omskrive din app.

Operative funktioner: Retries, timeouts, streaming, batching, caching, tracing og cost reporting klar til brug.

Hvis du lige er startet, kan du hurtigt danne dig et overblik i de officielle Getting Started-dokumenter. Til hands-on eksempler er DataCamp-tutorialen en god ledsager med trin-for-trin kode. Foretrækker du video, er der også et begyndervenligt crashkursus.

Hurtig start: Installer og dit første kald

Installation

# Python
pip install litellm
# Node.js
npm install litellm

Miljøvariabler

# Eksempel: brug af OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Minimal Chat Completion

from litellm import completion
resp = completion(
model="gpt-4o-mini", # eller "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Streaming, Tools og JSON Mode
### Streaming af svar
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Omkostninger og tokens forbrug
LiteLLM kan spore tokenforbrug og estimere omkostninger pr. forespørgsel, model eller projekt. Med proxien kan du eksportere forbruget til logs, dashboards eller en faktureringsopsamler. Dette er uvurderligt, når du blander leverandører med forskellige priser.
---
## LiteLLM Proxy (LLM Gateway)
Er I et team eller en platform, er proxien den store fordel: en central service med routing, autentificering, hastighedsgrænser, logging og overvågning. Du interagerer med den via OpenAI API-overfladen, så din app-kode næsten ikke ændres.
### Start proxien
```bash
# simpleste lokale kørsel
litellm --port 4000

Som standard eksponerer den OpenAI-kompatible endpoints som /v1/chat/completions. Peg din eksisterende OpenAI-klient til ` og så er du kørende.

Konfigurer leverandører og nøgler

Opret config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Kør med konfiguration:

litellm --config config.yaml --port 4000

Brug proxien med OpenAI SDK’er (ingen kodeændringer)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Avanceret routing: Latency, omkostninger eller pålidelighed
Du kan implementere routing-strategier som:
- Vægtet round-robin til A/B-test af modeller
- Laveste latency først pr. region
- Omkostningsbevidst routing for ikke-kritiske endpoints
- Fald tilbage ved fejl/retries på tværs af leverandører
Med en router-politik kan du sige ”foretræk billige, fald tilbage til premium ved svære prompts.” Det sikrer høj tilgængelighed og forudsigelige budgetter.
---
## Sikkerhedsforanstaltninger, moderation og tryghed
Tilføj pre- og post-processing middleware til at fjerne PII, håndhæve sikkerhedsfiltre eller moderere output, før de returneres til klienter. Kombiner leverandørbaseret moderation (f.eks. OpenAI, Google) med egne politikker i proxien. Eksempel: kræv JSON-schema validering og spørg igen ved ugyldigt output.
---
## Overvågning og logging
- Aktivér logning af forespørgsler og svar med anonymisering.
- Eksporter metrikker til Prometheus/Grafana eller din APM.
- Spor latency, tokens og omkostninger pr. endpoint og bruger.
Dette gør 'model roulette' til en styret service med SLO’er og budgetter.
---
## Virkelige brugsmønstre
1) Multi-leverandør robusthed
- Primær: hurtig/billig model; fallback: høj-præcision model ved 429/5xx.
- Fordele: bedre oppetid, omkostningskontrol og stabil kvalitet.
2) Feature-flag modelopgraderinger
- Brug router-vægte til canary-udrulning af ny model til 5% trafik; monitorer metrikker; øg gradvist når stabil.
3) Produktniveauer
- Gratis niveau rutes til små modeller; Pro-niveau til premium modeller.
4) Promptregistre og skabeloner
- Centraliser prompts i proxien, så services arver forbedringer uden redeploy.
5) Team-billing og budgetter
- Spor forbrug pr. API-nøgle; håndhæv bløde og hårde grænser pr. team eller produkt.
---
## Sikkerheds- og compliance tjekliste
- Gem leverandørnøgler i din hemmelighedshåndtering; referer via miljøvariabler i konfigurationen.
- Slå anonymisering og fjernelse af PII til i logs.
- Brug API-nøgler per service til proxien; roter jævnligt.
- Sæt organisation-wide rate limits og kvoter.
- Tilføj whitelist/blacklist for modeller og endpoints.
---
## Fejlfinding: Hurtige løsninger
- “Unauthorized” via proxy: Tjek `auth.api_keys` og at klienten bruger `base_url` + korrekt nøgle.
- Model ikke fundet: Sikr at `model_list` indeholder det kaldenavn, du bruger.
- Timeouts: Forøg `timeout` eller ruter til en region med lavere latency.
- Underlige svar: Aktivér JSON schema + validering; tilføj retries og fallback.
- Omkostningsspidser: Aktiver caching; ruter bulktrafik til billigere modeller; sæt kvoter pr. nøgle.
For dybere indsigt og de nyeste features opdateres de officielle docs ofte og er værd at gemme som bogmærke. Tutorials som DataCamp’s guide er super til hands-on mønstre, og crashkurset i video hjælper med at forstå principperne i praksis.
---
## Alt samlet: Referenceapp skelet (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI()
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### FAQ
Q1:Hvad er LiteLLM, og hvorfor bruge det fremfor direkte leverandør-SDK’er?
LiteLLM er en OpenAI-kompatibel gateway til over 100 LLM’er, der giver dig én API og ét mentalt modelbillede. Det mindsker leverandørlåsning, forenkler routing og tilbyder operationsfunktioner som caching, retries og omkostningssporing.
Q2:Hvordan bruger jeg LiteLLM med OpenAI SDK?
Peg SDK’ens base URL til LiteLLM-proxien og brug din proxy API-nøgle. Din kode kan forblive den samme, mens proxien kan skifte leverandør eller model bag kulisserne.
Q3:Kan LiteLLM streame svar og returnere JSON?
Ja. Brug `stream=True` for token streams, og `response_format` med JSON-schema for at sikre struktureret output på tværs af leverandører.
Q4:Hvordan styrer jeg omkostninger på tværs af LLM-leverandører?
Aktivér logning og omkostningsestimering, tilføj caching, sæt rate limits og ruter bulk-trafik til billigere modeller via proxien. Overvåg med dashboards for budgetter og SLO’er.
Q5:Er LiteLLM egnet til produktionsteams?
Ja. Proxien tilbyder autentificering, rate limits, routing, overvågning og sikkerhedsmiddleware. Den er designet som en LLM-gateway, der centraliserer styring og stadig holder din app OpenAI-kompatibel.

Sådan bruges LiteLLM: En praktisk guide med eksempler, pro-tips og workflows fra den virkelige verden