Bijgewerkt op 25 sep 2025
6 min
# Pythonpip install litellm# Node.jsnpm install litellm# Voorbeeld: gebruik van OpenAI + Anthropic + Mistralexport OPENAI_API_KEY=sk-...export ANTHROPIC_API_KEY=sk-ant-...export MISTRAL_API_KEY=sk-mis-...from litellm import completionresp = completion(model="gpt-4o-mini", # of "anthropic/claude-3-5-sonnet", "mistral/mistral-large"messages=.---## Streaming, Tools, en JSON Mode### Streaming Responses```pythonfrom litellm import completionfor chunk in completion(model="gpt-4o-mini",messages=.### Kosten en Token GebruikLiteLLM kan token gebruik volgen en de kosten per request, model, of project inschatten. Met de proxy kun je het gebruik exporteren naar logs, dashboards, of een billing sink. Dit is van onschatbare waarde wanneer je vendors mixt met verschillende prijzen.---## De LiteLLM Proxy (LLM Gateway)Als je een team of platform bent, is de proxy de echte superkracht: een centrale service met routing, authenticatie, rate limits, logging en observability. Je interageert ermee met behulp van de OpenAI API surface, zodat je app code nauwelijks verandert.### Start de Proxy```bash# eenvoudigste lokale runlitellm --port 4000/v1/chat/completions. Richt je bestaande OpenAI client op ` en je bent klaar.config.yaml:model_list:- model_name: gpt-4o-minilitellm_params:model: openai/gpt-4o-miniapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}router:strategy: simple_weightedroutes:- model: gpt-4o-miniweight: 0.6- model: claude-3-5-sonnetweight: 0.4rate_limits:requests_per_minute: 120logging:level: infosink: stdoutauth:api_keys:- key: svc-app-123litellm --config config.yaml --port 4000from openai import OpenAIclient = OpenAI(base_url=" api_key="svc-app-123")resp = client.chat.completions.create(model="gpt-4o-mini",messages=.---## Geavanceerde Routing: Latency, Kosten, of BetrouwbaarheidJe kunt routing strategieën implementeren zoals:- Weighted round-robin naar A/B modellen- Lowest-latency-first per regio- Cost-aware routing voor niet-kritieke endpoints- Fallback-on-error/retry over providersMet een router policy kun je zeggen "geef de voorkeur aan goedkoop, val terug op premium voor moeilijke prompts." Dit biedt hoge beschikbaarheid en voorspelbare budgetten.---## Guardrails, Moderatie, en VeiligheidVoeg pre- en post-processing middleware toe om PII te strippen, veiligheidsfilters af te dwingen of outputs te modereren voordat ze worden teruggestuurd naar clients. Combineer provider-native moderatie (bijv. OpenAI, Google) met je eigen policy checks in de proxy. Voorbeeld: vereis JSON schema validatie en vraag opnieuw wanneer ongeldig.---## Observability en Logging- Schakel request/response logging in met redaction.- Exporteer metrics naar Prometheus/Grafana of je APM.- Trace latency, tokens en kosten per endpoint en user.Dit verandert "model roulette" in een managed service met SLO's en budgetten.---## Real-World Gebruikspatronen1) Multi-vendor resilience- Primair: snel/goedkoop model; Fallback: high-accuracy model op 429/5xx.- Voordelen: betere uptime, kostenbeheersing en stabiele kwaliteit.2) Feature flag model upgrades- Gebruik router weights om een nieuw model canary te testen op 5% van het verkeer; monitor metrics; ramp up wanneer stabiel.3) Product tiers- Free tier gerouteerd naar kleine modellen; Pro tier naar premium modellen.4) Prompt registries en templates- Centraliseer prompts in de proxy zodat services verbeteringen erven zonder redeploys.5) Team billing en budgetten- Volg spend per API key; dwing soft en hard limits af per team of product.---## Security en Compliance Checklist- Bewaar provider keys in je secret manager; refereer via env vars in config.- Schakel request redaction en PII scrubbing in logs.- Gebruik per-service API keys voor de proxy; roteer regelmatig.- Stel org-wide rate limits en quota's in.- Voeg allowlists/denylists toe voor modellen en endpoints.---## Troubleshooting: Fast Fixes- “Unauthorized” via proxy: Check `auth.api_keys` en dat je client `base_url` + correcte key gebruikt.- Model not found: Zorg ervoor dat `model_list` de friendly name bevat die je aanroept.- Timeouts: Verhoog `timeout` of route naar een lager-latency provider region.- Weird outputs: Schakel JSON schema + validatie in; voeg retries en fallbacks toe.- Cost spikes: Schakel caching in; route bulk traffic naar goedkopere modellen; stel per-key quota's in.Voor diepere duiken en de nieuwste functies worden de officiële documenten regelmatig bijgewerkt en zijn ze de moeite waard om te bookmarken. Tutorials zoals DataCamp's guide zijn geweldig voor praktische patronen, en de beginner crash course video kan je helpen de concepten in actie te zien.---## Zet alles samen: Referentie App Skeleton (Python FastAPI)```python# app.pyfrom fastapi import FastAPIfrom pydantic import BaseModelfrom litellm import completionimport osclass ChatReq(BaseModel):question: strapp = FastAPI@app.post("/ask")async def ask(req: ChatReq):resp = completion(model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),messages=.### FAQQ1: Wat is LiteLLM en waarom het gebruiken over direct provider SDK's?LiteLLM is een OpenAI-compatibele gateway voor 100+ LLM's, waardoor je één API en één mentaal model hebt. Het vermindert vendor lock-in, vereenvoudigt routing en voegt ops functies toe zoals caching, retries en kosten tracking.Q2: Hoe gebruik ik LiteLLM met de OpenAI SDK?Richt de SDK's base URL naar de LiteLLM proxy en gebruik je proxy API key. Je code kan hetzelfde blijven terwijl de proxy providers of modellen achter de schermen verwisselt.Q3: Kan LiteLLM responses streamen en JSON retourneren?Ja. Gebruik `stream=True` om token streams te krijgen, en `response_format` met JSON schema om gestructureerde outputs af te dwingen over providers.Q4: Hoe controleer ik de kosten over verschillende LLM providers?Schakel usage logging en kosten inschatting in, voeg caching toe, stel rate limits in en route bulk traffic naar goedkopere modellen via de proxy. Monitor met dashboards voor budgetten en SLO's.Q5: Is LiteLLM geschikt voor productie teams?Ja. De proxy biedt authenticatie, rate limits, routing, observability en veiligheid middleware. Het is ontworpen als een LLM gateway die governance centraliseert terwijl je app OpenAI-compatibel blijft.
Hoe je ChatPDF onder de knie krijgt: Sneller inzichten uit uitgebreide documenten

Het beste alternatief voor X Auto-Translation voor snelle, nauwkeurige documenten

Samsung AI-vertaling niet beschikbaar in Iran? Praktische oplossingen

Perzische vertaalt tools: een praktische gids voor sneller en nauwkeuriger werk

Het beste alternatief voor Grok voor diepgaand, geciteerd onderzoek

Top 15 functies van een AI-beeldgenerator die u daadwerkelijk zult gebruiken