What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Kaip naudoti LiteLLM: praktinis vadovas su pavyzdžiais, profesionalų patarimais ir realaus pasaulio darbo eigos

Jei kada nors norėjote, kad kiekvienos modelio API veiktų kaip OpenAI, jums patiks LiteLLM. Tai lengvas šliuzas, leidžiantis jums iškviesti daugiau nei 100 LLM su viena, su OpenAI suderinama sąsaja – lokaliai kode arba per centrinį tarpinį serverį, kuriuo galite dalytis su komandomis. Šioje pamokoje apžvelgsime diegimą, pagrindinį ir išplėstinį naudojimą, srautinį perdavimą, paketinį apdorojimą, pakartotinius bandymus, talpyklos atmintį, išlaidų stebėjimą ir LiteLLM tarpinio serverio diegimą su apsaugos priemonėmis ir maršrutizavimu. Taip pat įtrauksime Python ir JavaScript pavyzdžių bei realaus pasaulio modelių.

Verta paminėti: jei norite greitai prototipuoti raginimus, užduoti klausimus keliuose modeliuose ir tvarkyti rezultatus, Sider.AI gali būti naudingas pagalbininkas atliekant tyrimus ir iteracijas, kol sujungsite savo LiteLLM pagrindu sukurtą rinkinį. Jis papildo jūsų darbo eigą, padėdamas palyginti rezultatus ir patobulinti raginimus prieš juos užkoduojant.

Eisime praktiniu ir į sprendimus orientuotu keliu, kad galėtumėte kopijuoti ir siųsti.

Kas yra LiteLLM (ir kodėl komandos jį naudoja)

Viena API daugeliui modelių: iškvieskite Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock ir kitus naudodami OpenAI stiliaus funkcijas.

Du būdai jį naudoti:

Kliento SDK (Python/JS): greitas naudojimas scenarijuose, serveriuose, bloknotuose.

Tarpinis serveris (LLM šliuzas): centralizuota paslauga maršrutizavimui, autentifikavimui, registravimui, išlaidų kontrolei ir stebėjimui.

Tiesioginis suderinamumas: keiskite modelius neperrašydami savo programos.

Operacinės funkcijos: pakartotiniai bandymai, skirtasis laikas, srautinis perdavimas, paketiniai apdorojimai, talpyklos atmintis, sekimas ir išlaidų ataskaitos iš karto.

Jei tik pradedate, peržvelkite oficialius Pradžios dokumentus, kad susidarytumėte greitą protinį modelį. Praktiniams pavyzdžiams DataCamp pamoka yra tvirtas kompanionas su žingsnis po žingsnio kodu. Jei norite vaizdo įrašo, taip pat yra pradedantiesiems skirtas pagreitintas kursas.

Greita pradžia: įdiekite ir pirmasis iškvietimas

Įdiegti

# Python
pip install litellm
# Node.js
npm install litellm

Aplinkos kintamieji

# Pavyzdys: naudojant OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: minimalus pokalbio užbaigimas

from litellm import completion
resp = completion(
model="gpt-4o-mini", # or "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Srautinis perdavimas, įrankiai ir JSON režimas
### Srautinio perdavimo atsakymai
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Išlaidos ir žetonų naudojimas
LiteLLM gali stebėti žetonų naudojimą ir įvertinti išlaidas vienai užklausai, modeliui ar projektui. Naudodami tarpinį serverį galite eksportuoti naudojimą į žurnalus, informacijos suvestines arba atsiskaitymo šaltinį. Tai neįkainojama, kai naudojate skirtingus tiekėjus su skirtingomis kainomis.
---
## LiteLLM tarpinis serveris (LLM šliuzas)
Jei esate komanda ar platforma, tarpinis serveris yra tikra supergalia: centrinė paslauga su maršrutizavimu, autentifikavimu, dažnio apribojimais, registravimu ir stebėjimu. Jūs sąveikaujate su juo naudodami OpenAI API paviršių, todėl jūsų programos kodas beveik nesikeičia.
### Paleiskite tarpinį serverį
```bash
# paprasčiausias vietinis paleidimas
litellm --port 4000

Pagal numatytuosius nustatymus jis atveria su OpenAI suderinamus galinius taškus, tokius kaip /v1/chat/completions. Nukreipkite savo esamą OpenAI klientą į ` ir esate pasiruošę.

Konfigūruokite teikėjus ir raktus

Sukurkite config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Vykdykite su konfigūracija:

litellm --config config.yaml --port 4000

Naudokite tarpinį serverį iš OpenAI SDK (jokių kodo pakeitimų)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Išplėstinis maršrutizavimas: latentinis periodas, išlaidos ar patikimumas
Galite įdiegti tokias maršrutizavimo strategijas kaip:
- Svorinis apskritas stalas A/B modeliams
- Mažiausio latentinio periodo pirmasis pagal regioną
- Į sąnaudas orientuotas maršrutizavimas ne kritiniams galiniams taškams
- Atsarginis variantas įvykus klaidai / pakartotinis bandymas tarp tiekėjų
Naudodami maršrutizatoriaus politiką galite pasakyti „teikite pirmenybę pigiam, pereikite prie aukščiausios kokybės sunkiems raginimams“. Tai užtikrina didelį prieinamumą ir nuspėjamus biudžetus.
---
## Apsaugos priemonės, moderavimas ir sauga
Pridėkite išankstinio ir po apdorojimo tarpinės programinės įrangos, kad pašalintumėte PII, įgyvendintumėte saugos filtrus arba moderuotumėte rezultatus prieš grąžindami juos klientams. Sujunkite teikėjo gimtąjį moderavimą (pvz., OpenAI, Google) su savo politikos patikrinimais tarpiniame serveryje. Pavyzdys: reikalaukite JSON schemos patvirtinimo ir vėl klauskite, kai ji neteisinga.
---
## Stebėjimas ir registravimas
- Įgalinkite užklausų/atsakymų registravimą su redagavimu.
- Eksportuokite metriką į Prometheus/Grafana arba savo APM.
- Sekite latentinį periodą, žetonus ir išlaidas pagal galinį tašką ir vartotoją.
Tai paverčia „modelio rulete“ valdoma paslauga su SLO ir biudžetais.
---
## Realaus pasaulio naudojimo modeliai
1) Atsparumas keliems tiekėjams
- Pagrindinis: greitas/pigus modelis; Atsarginis: didelio tikslumo modelis 429/5xx.
- Privalumai: geresnis veikimo laikas, išlaidų kontrolė ir stabili kokybė.
2) Funkcijų vėliavos modelio atnaujinimai
- Naudokite maršrutizatoriaus svorius, kad kanarėlių naują modelį 5 % srauto; stebėkite metriką; padidinkite, kai stabilus.
3) Produktų pakopos
- Nemokama pakopa nukreipiama į mažus modelius; Pro pakopa į aukščiausios kokybės modelius.
4) Ragintų registrai ir šablonai
- Centralizuokite raginimus tarpiniame serveryje, kad paslaugos paveldėtų patobulinimus be naujų diegimų.
5) Komandos atsiskaitymas ir biudžetai
- Sekite išlaidas pagal API raktą; įgyvendinkite švelnius ir griežtus apribojimus vienai komandai ar produktui.
---
## Saugos ir atitikties kontrolinis sąrašas
- Saugokite teikėjo raktus savo paslapčių tvarkytuve; nurodykite per aplinkos kintamuosius konfigūracijoje.
- Įjunkite užklausų redagavimą ir PII valymą žurnaluose.
- Naudokite kiekvienai paslaugai API raktus tarpiniam serveriui; reguliariai rotuokite.
- Nustatykite visos organizacijos dažnio apribojimus ir kvotas.
- Pridėkite leidžiamų sąrašus / draudžiamų sąrašus modeliams ir galiniams taškams.
---
## Trikčių šalinimas: greiti pataisymai
- „Neautorizuotas“ per tarpinį serverį: patikrinkite `auth.api_keys` ir ar jūsų klientas naudoja `base_url` + teisingą raktą.
- Modelio nerasta: įsitikinkite, kad `model_list` yra draugiškas pavadinimas, kurį iškviečiate.
- Skirtasis laikas: padidinkite `timeout` arba nukreipkite į mažesnio latentinio periodo teikėjo regioną.
- Keisti rezultatai: įgalinkite JSON schemą + patvirtinimą; pridėkite pakartotinius bandymus ir atsarginius variantus.
- Išlaidų šuoliai: įjunkite talpyklos atmintį; nukreipkite didelį srautą į pigesnius modelius; nustatykite kiekvieno rakto kvotas.
Norėdami gauti išsamesnių apžvalgų ir naujausių funkcijų, oficialūs dokumentai yra dažnai atnaujinami ir juos verta pažymėti. Tokios pamokos kaip DataCamp vadovas puikiai tinka praktiniams modeliams, o pagreitintas vaizdo įrašų kursas pradedantiesiems gali padėti jums pamatyti sąvokas veiksme.
---
## Sudėkite viską: etaloninės programos skeletas (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### DUK
Q1:Kas yra LiteLLM ir kodėl jį naudoti vietoje tiesioginių teikėjo SDK?
LiteLLM yra su OpenAI suderinamas šliuzas, skirtas daugiau nei 100 LLM, suteikiantis jums vieną API ir vieną protinį modelį. Jis sumažina tiekėjo priklausomybę, supaprastina maršrutizavimą ir prideda operacijų funkcijų, tokių kaip talpyklos atmintis, pakartotiniai bandymai ir išlaidų stebėjimas.
Q2:Kaip naudoti LiteLLM su OpenAI SDK?
Nukreipkite SDK bazinį URL į LiteLLM tarpinį serverį ir naudokite savo tarpinio serverio API raktą. Jūsų kodas gali likti toks pat, o tarpinis serveris pakeičia tiekėjus arba modelius užkulisiuose.
Q3:Ar LiteLLM gali srautiniu būdu perduoti atsakymus ir grąžinti JSON?
Taip. Naudokite `stream=True`, kad gautumėte žetonų srautus, ir `response_format` su JSON schema, kad įgyvendintumėte struktūrizuotus rezultatus tarp tiekėjų.
Q4:Kaip kontroliuoti išlaidas tarp skirtingų LLM teikėjų?
Įgalinkite naudojimo registravimą ir išlaidų įvertinimą, pridėkite talpyklos atmintį, nustatykite dažnio apribojimus ir nukreipkite didelį srautą į pigesnius modelius per tarpinį serverį. Stebėkite su informacijos suvestinėmis, kad gautumėte biudžetus ir SLO.
Q5:Ar LiteLLM tinka gamybos komandoms?
Taip. Tarpinis serveris suteikia autentifikavimą, dažnio apribojimus, maršrutizavimą, stebėjimą ir saugos tarpinę programinę įrangą. Jis sukurtas kaip LLM šliuzas, kuris centralizuoja valdymą, išlaikant jūsų programos suderinamumą su OpenAI.

Kaip naudoti LiteLLM: praktinis vadovas su pavyzdžiais, profesionalų patarimais ir realaus pasaulio darbo eiga