What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Kuidas kasutada LiteLLM-i: praktiline juhend näidetega, professionaalsete näpunäidetega ja reaalse maailma töövoogudega

Kui oled kunagi soovinud, et iga mudeli API käituks nagu OpenAI oma, siis sa armastad LiteLLM-i. See on kergekaaluline lüüs, mis võimaldab sul kutsuda 100+ LLM-i ühe OpenAI-ga ühilduva liidese abil – lokaalselt koodis või tsentraalse puhverserveri kaudu, mida saad meeskondade vahel jagada. Selles õpetuses käsitleme installimist, põhi- ja täiustatud kasutust, voogedastust, pakettöötlust, uuesti proovimist, vahemällu salvestamist, kulude jälgimist ja LiteLLM-i puhverserveri juurutamist koos turvameetmete ja marsruutimisega. Lisame ka Pythoni ja JavaScripti näited ning reaalse maailma mustrid.

Tasub märkida: kui soovid kiiret viisi viipade prototüüpimiseks, küsimuste esitamiseks mitme mudeli vahel ja tulemuste organiseerimiseks, võib Sider.AI olla abiks uurimistöö ja iteratsiooni jaoks, samal ajal kui sa ühendad oma LiteLLM-i põhise pinu. See täiendab sinu töövoogu, aidates sul võrrelda väljundeid ja täiustada viipasid enne nende kodeerimist.

Võtame praktilise ja lahendustele orienteeritud tee, et saaksid kopeerida ja välja saata.

Mis on LiteLLM (ja miks meeskonnad seda kasutavad)

Üks API paljudele mudelitele: kutsu Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock ja teisi, kasutades OpenAI stiilis funktsioone.

Kaks kasutusviisi:

Kliendi SDK-d (Python/JS): kiire kasutus skriptides, serverites, märkmikes.

Puhverserver (LLM Gateway): tsentraliseeritud teenus marsruutimiseks, autentimiseks, logimiseks, kulude kontrollimiseks ja jälgitavuseks.

Drop-in ühilduvus: vaheta mudeleid ilma oma rakendust ümber kirjutamata.

Operatiivsed funktsioonid: uuesti proovimine, ajalõpud, voogedastus, pakettöötlus, vahemällu salvestamine, jälgimine ja kulude aruandlus otse karbist.

Kui sa alles alustad, siis sirvi kiireks vaimseks mudeliks ametlikke alustamisdokumente. Praktiliste näidete jaoks on DataCampi õpetus tugev kaaslane koos samm-sammult koodiga. Kui eelistad videot, siis on olemas ka algajasõbralik kiirkursus.

Kiirkäivitus: installi ja tee esimene kutse

Installi

# Python
pip install litellm
# Node.js
npm install litellm

Keskkonnamuutujad

# Näide: OpenAI + Anthropic + Mistral kasutamine
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: minimaalne vestluse lõpetamine

from litellm import completion
resp = completion(
model="gpt-4o-mini", # or "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Voogedastus, tööriistad ja JSON režiim
### Vastuste voogedastus
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Kulude ja märkide kasutamine
LiteLLM saab jälgida märkide kasutust ja hinnata kulusid taotluse, mudeli või projekti kohta. Puhverserveriga saad eksportida kasutuse logidesse, armatuurlaudadesse või arveldusteenusesse. See on hindamatu, kui kasutad erineva hinnakujundusega müüjaid.
---
## LiteLLM-i puhverserver (LLM Gateway)
Kui oled meeskond või platvorm, siis on puhverserver tõeline supervõime: tsentraalne teenus marsruutimise, autentimise, määrade piirangute, logimise ja jälgitavusega. Sa suhtled sellega OpenAI API pinna kaudu, nii et sinu rakenduse kood peaaegu ei muutu.
### Käivita puhverserver
```bash
# lihtsaim kohalik käivitus
litellm --port 4000

Vaikimisi eksponeerib see OpenAI-ga ühilduvaid lõpp-punkte nagu /v1/chat/completions. Suuna oma olemasolev OpenAI klient ` ja oledki valmis.

Konfigureeri pakkujad ja võtmed

Loo config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Käivita konfiguratsiooniga:

litellm --config config.yaml --port 4000

Kasuta puhverserverit OpenAI SDK-dest (koodimuudatusi pole)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Täiustatud marsruutimine: latentsus, hind või usaldusväärsus
Saad rakendada marsruutimisstrateegiaid nagu:
- Kaalutud round-robin mudelite A/B testimiseks
- Madalaima latentsusega esimesena piirkonna järgi
- Kuluteadlik marsruutimine mitte-kriitiliste lõpp-punktide jaoks
- Vea korral tagavaraks/uuesti proovimine pakkujate vahel
Ruuteri poliitikaga saad öelda: “eelista odavat, kukkuda raskete viipade korral premiumile”. See pakub kõrget kättesaadavust ja prognoositavaid eelarveid.
---
## Turvameetmed, modereerimine ja ohutus
Lisa eel- ja järel-töötluse vahevara, et eemaldada PII, jõustada ohutusfiltreid või modereerida väljundeid enne klientidele tagastamist. Kombineeri pakkuja-põhist modereerimist (nt OpenAI, Google) omaenda poliitikakontrollidega puhverserveris. Näide: nõua JSON-skeemi valideerimist ja küsi uuesti, kui see on kehtetu.
---
## Jälgitavus ja logimine
- Luba taotluse/vastuse logimine redaktsiooniga.
- Ekspordi mõõdikud Prometheus/Grafanasse või oma APM-i.
- Jälgi latentsust, märke ja kulusid lõpp-punkti ja kasutaja järgi.
See muudab “mudeli ruleti” hallatavaks teenuseks koos SLO-de ja eelarvetega.
---
## Reaalse maailma kasutusmustrid
1) Mitme müüja vastupidavus
- Esmane: kiire/odav mudel; Tagavara: kõrge täpsusega mudel 429/5xx korral.
- Eelised: parem tööaeg, kulude kontroll ja stabiilne kvaliteet.
2) Funktsioonilippude mudeli uuendused
- Kasuta ruuteri kaalusid, et uut mudelit 5% liiklusest katsetada; jälgi mõõdikuid; suurenda, kui see on stabiilne.
3) Tootetasemed
- Tasuta tase marsruuditud väikestesse mudelitesse; Pro tase premium mudelitesse.
4) Viipade registrid ja mallid
- Tsentraliseeri viipad puhverserveris, et teenused päriksid täiustusi ilma uuesti juurutamiseta.
5) Meeskonna arveldamine ja eelarved
- Jälgi kulutusi API võtme järgi; jõusta pehmeid ja rangeid limiite meeskonna või toote kohta.
---
## Turvalisuse ja vastavuse kontrollnimekiri
- Salvesta pakkuja võtmed oma saladuste halduris; viita konfiguratsioonis env muutujate kaudu.
- Lülita sisse taotluse redaktsioon ja PII puhastamine logides.
- Kasuta puhverserveri jaoks teenusepõhiseid API võtmeid; roteeri regulaarselt.
- Sea organisatsiooni laiad määrade limiidid ja kvoodid.
- Lisa lubatud/keelatud nimekirjad mudelitele ja lõpp-punktidele.
---
## Tõrkeotsing: kiired lahendused
- “Volitamata” puhverserveri kaudu: kontrolli `auth.api_keys` ja kas sinu klient kasutab `base_url` + õiget võtit.
- Mudelit ei leitud: veendu, et `model_list` sisaldab sõbralikku nime, mida sa kutsud.
- Ajalõpud: suurenda `timeout` või marsruudi madalama latentsusega pakkuja piirkonda.
- Veidrad väljundid: luba JSON-skeem + valideerimine; lisa uuesti proovimisi ja tagavarasid.
- Kulude kasv: lülita sisse vahemällu salvestamine; marsruudi hulgi liiklus odavamatesse mudelitesse; sea võtmepõhised kvoodid.
Sügavamate sukeldumiste ja uusimate funktsioonide jaoks uuendatakse ametlikke dokumente sageli ja tasub need järjehoidjatesse lisada. Õpetused nagu DataCampi juhend on suurepärased praktiliste mustrite jaoks ja algaja kiirkursuse video aitab sul näha kontseptsioone tegevuses.
---
## Pane see kõik kokku: viiterakenduse skelett (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### KKK
Q1:Mis on LiteLLM ja miks seda kasutada otse pakkuja SDK-de asemel?
LiteLLM on OpenAI-ga ühilduv lüüs 100+ LLM-ile, andes sulle ühe API ja ühe vaimse mudeli. See vähendab müüja lukustumist, lihtsustab marsruutimist ja lisab ops funktsioone nagu vahemällu salvestamine, uuesti proovimine ja kulude jälgimine.
Q2:Kuidas ma kasutan LiteLLM-i OpenAI SDK-ga?
Suuna SDK baas-URL LiteLLM-i puhverserverisse ja kasuta oma puhverserveri API võtit. Sinu kood võib jääda samaks, samal ajal kui puhverserver vahetab pakkujaid või mudeleid kulisside taga.
Q3:Kas LiteLLM saab voogedastada vastuseid ja tagastada JSON-i?
Jah. Kasuta `stream=True`, et saada märkide voogusid ja `response_format` koos JSON-skeemiga, et jõustada struktureeritud väljundeid kõigi pakkujate puhul.
Q4:Kuidas ma kontrollin kulusid erinevate LLM-i pakkujate puhul?
Luba kasutuslogimine ja kulude hindamine, lisa vahemällu salvestamine, sea määrade limiidid ja marsruudi hulgi liiklus odavamatesse mudelitesse puhverserveri kaudu. Jälgi armatuurlaudadega eelarveid ja SLO-sid.
Q5:Kas LiteLLM sobib tootmismeeskondadele?
Jah. Puhverserver pakub autentimist, määrade limiite, marsruutimist, jälgitavust ja ohutusvahevara. See on loodud LLM-i lüüsina, mis tsentraliseerib juhtimist, hoides samal ajal sinu rakenduse OpenAI-ga ühilduvana.

Kuidas kasutada LiteLLM-i: praktiline juhend näidete, professionaalsete näpunäidete ja reaalse maailma töövoogudega