What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Kā lietot LiteLLM: Praktisks ceļvedis ar piemēriem, profesionāliem padomiem un reālās pasaules darbplūsmām

Ja kādreiz esat vēlējies, lai katra modeļa API darbotos kā OpenAI, jums patiks LiteLLM. Tā ir viegla vārteja, kas ļauj jums izsaukt 100+ LLM ar vienu, ar OpenAI saderīgu saskarni — lokāli kodā vai izmantojot centrālo starpniekserveri, ko varat koplietot starp komandām. Šajā apmācībā mēs izskatīsim instalēšanu, pamata un papildu lietojumu, straumēšanu, pakešapstrādi, atkārtotus mēģinājumus, kešatmiņas izmantošanu, izmaksu uzskaiti un LiteLLM starpniekservera izvietošanu ar aizsargmehānismiem un maršrutēšanu. Mēs iekļausim arī Python un JavaScript piemērus un reālās pasaules modeļus.

Ir vērts atzīmēt: ja vēlaties ātru veidu, kā prototipēt uzvednes, uzdot jautājumus dažādiem modeļiem un sakārtot rezultātus, Sider.AI var būt noderīgs palīgs pētniecībā un iterācijā, kamēr jūs savienojat savu LiteLLM bāzes steku. Tas papildina jūsu darbplūsmu, palīdzot salīdzināt izvades un precizēt uzvednes pirms to kodificēšanas.

Mēs izvēlēsimies praktisku un uz risinājumiem orientētu pieeju, lai jūs varētu kopēt un izplatīt.

Kas ir LiteLLM (un kāpēc to izmanto komandas)

Viena API daudziem modeļiem: zvaniet Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock un citiem, izmantojot OpenAI stila funkcijas.

Divi veidi, kā to izmantot:

Klientu SDK (Python/JS): ātra lietošana skriptos, serveros, piezīmjdatoros.

Starpniekserveris (LLM vārteja): centralizēts pakalpojums maršrutēšanai, autentifikācijai, reģistrēšanai, izmaksu kontrolei un novērojamībai.

Iebūvēta saderība: nomainiet modeļus, nepārrakstot savu lietotni.

Darbības funkcijas: atkārtoti mēģinājumi, taimauti, straumēšana, pakešapstrāde, kešatmiņas izmantošana, trasēšana un izmaksu atskaites.

Ja jūs tikko sākat darbu, ātri pārlūkojiet oficiālo dokumentāciju Iesākumam, lai iegūtu ātru mentālo modeli. Praktiskiem piemēriem DataCamp apmācība ir labs pavadonis ar soli pa solim kodu. Ja vēlaties video, ir pieejams arī iesācējiem draudzīgs ātrs kurss.

Ātrā sākšana: instalējiet un veiciet savu pirmo zvanu

Instalēt

# Python
pip install litellm
# Node.js
npm install litellm

Vides mainīgie

# Piemērs: izmantojot OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Minimāla tērzēšanas pabeigšana

from litellm import completion
resp = completion(
model="gpt-4o-mini", # or "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Straumēšana, rīki un JSON režīms
### Straumēšanas atbildes
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Izmaksas un žetonu izmantošana
LiteLLM var izsekot žetonu izmantošanu un novērtēt izmaksas par pieprasījumu, modeli vai projektu. Izmantojot starpniekserveri, jūs varat eksportēt lietojumu žurnālos, informācijas paneļos vai norēķinu vietā. Tas ir nenovērtējami, ja jūs sajaucat piegādātājus ar dažādām cenām.
---
## LiteLLM starpniekserveris (LLM vārteja)
Ja esat komanda vai platforma, starpniekserveris ir īstais lielvalsts: centrāls pakalpojums ar maršrutēšanu, autentifikāciju, ātruma ierobežojumiem, reģistrēšanu un novērojamību. Jūs mijiedarbojaties ar to, izmantojot OpenAI API virsmu, lai jūsu lietotnes kods gandrīz nemainītos.
### Palaidiet starpniekserveri
```bash
# vienkāršākā lokālā palaišana
litellm --port 4000

Pēc noklusējuma tas atklāj ar OpenAI saderīgus galapunktus, piemēram, /v1/chat/completions. Norādiet savu esošo OpenAI klientu uz ` un viss ir gatavs.

Konfigurējiet pakalpojumu sniedzējus un atslēgas

Izveidojiet config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Palaidiet ar konfigurāciju:

litellm --config config.yaml --port 4000

Izmantojiet starpniekserveri no OpenAI SDK (bez koda izmaiņām)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Uzlabota maršrutēšana: latentums, izmaksas vai uzticamība
Jūs varat ieviest maršrutēšanas stratēģijas, piemēram:
- Svērtais apļveida princips A/B modeļiem
- Zemākais latentums vispirms pēc reģiona
- Izmaksu ziņā apzinīga maršrutēšana nekritiskiem galapunktiem
- Atkāpšanās no kļūdas/atkārtoti mēģinājumi dažādiem pakalpojumu sniedzējiem
Izmantojot maršrutētāja politiku, jūs varat teikt: "Dodiet priekšroku lētam, atkāpieties uz premium klases piedāvājumu grūtām uzvednēm." Tas piedāvā augstu pieejamību un paredzamus budžetus.
---
## Aizsargmehānismi, moderēšana un drošība
Pievienojiet pirms un pēc apstrādes starpprogrammatūru, lai noņemtu PII, piemērotu drošības filtrus vai moderētu izvades pirms atgriešanas klientiem. Apvienojiet pakalpojumu sniedzēja sākotnējo moderēšanu (piemēram, OpenAI, Google) ar savām politikas pārbaudēm starpniekserverī. Piemērs: pieprasiet JSON shēmas validāciju un atkārtoti jautājiet, ja tā ir nederīga.
---
## Novērojamība un reģistrēšana
- Iespējojiet pieprasījumu/atbilžu reģistrēšanu ar rediģēšanu.
- Eksportējiet metrikas uz Prometheus/Grafana vai savu APM.
- Izsekojiet latentumu, žetonus un izmaksas pēc galapunkta un lietotāja.
Tas pārvērš "modeļa ruleti" par pārvaldītu pakalpojumu ar SLO un budžetiem.
---
## Reālās pasaules lietojuma modeļi
1) Vairāku piegādātāju noturība
- Primārais: ātrs/lēts modelis; Atkāpšanās: augstas precizitātes modelis 429/5xx gadījumā.
- Ieguvumi: labāks darbspējas laiks, izmaksu kontrole un stabila kvalitāte.
2) Funkciju karoga modeļa jauninājumi
- Izmantojiet maršrutētāja svarus, lai kanārijputniņu jaunu modeli 5% no datplūsmas; uzraudzīt metrikas; palieliniet, kad tas ir stabils.
3) Produktu līmeņi
- Bezmaksas līmenis tiek maršrutēts uz maziem modeļiem; Pro līmenis uz premium klases modeļiem.
4) Uzvedņu reģistri un veidnes
- Centralizējiet uzvednes starpniekserverī, lai pakalpojumi pārmantotu uzlabojumus bez atkārtotas izvietošanas.
5) Komandas norēķini un budžeti
- Izsekojiet tēriņus pēc API atslēgas; piemērot mīkstus un stingrus ierobežojumus katrai komandai vai produktam.
---
## Drošības un atbilstības kontrolsaraksts
- Glabājiet pakalpojumu sniedzēja atslēgas savā slepenajā pārvaldniekā; norādiet, izmantojot vides mainīgos lielumus konfigurācijā.
- Ieslēdziet pieprasījumu rediģēšanu un PII attīrīšanu žurnālos.
- Izmantojiet API atslēgas katram pakalpojumam starpniekserverim; regulāri rotējiet.
- Iestatiet ātruma ierobežojumus un kvotas visai organizācijai.
- Pievienojiet atļauto/liegto sarakstus modeļiem un galapunktiem.
---
## Traucējummeklēšana: ātri labojumi
- "Neautorizēts" caur starpniekserveri: pārbaudiet `auth.api_keys` un vai jūsu klients izmanto `base_url` + pareizu atslēgu.
- Modelis nav atrasts: pārliecinieties, vai `model_list` satur draudzīgo nosaukumu, kuru zvanāt.
- Taimauti: palieliniet `timeout` vai maršrutējiet uz reģionu ar zemāku latentumu.
- Dīvainas izvades: iespējojiet JSON shēmu + validāciju; pievienojiet atkārtotus mēģinājumus un atkāpšanās.
- Izmaksu lēcieni: ieslēdziet kešatmiņas izmantošanu; maršrutējiet lielapjoma datplūsmu uz lētākiem modeļiem; iestatiet kvotas katrai atslēgai.
Lai iegūtu padziļinātu informāciju un jaunākās funkcijas, oficiālā dokumentācija tiek atjaunināta bieži, un to ir vērts pievienot grāmatzīmēm. Apmācības, piemēram, DataCamp ceļvedis, ir lieliski piemērotas praktiskiem modeļiem, un iesācēju ātrā kursa video var palīdzēt jums redzēt koncepcijas darbībā.
---
## Apvienojiet to visu: atsauces lietotnes skelets (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### FAQ
Q1:Kas ir LiteLLM un kāpēc to izmantot, nevis tiešos pakalpojumu sniedzēju SDK?
LiteLLM ir ar OpenAI saderīga vārteja 100+ LLM, kas nodrošina vienu API un vienu mentālo modeli. Tas samazina piesaisti piegādātājam, vienkāršo maršrutēšanu un pievieno darbību funkcijas, piemēram, kešatmiņas izmantošanu, atkārtotus mēģinājumus un izmaksu uzskaiti.
Q2:Kā es varu izmantot LiteLLM ar OpenAI SDK?
Norādiet SDK bāzes URL uz LiteLLM starpniekserveri un izmantojiet savu starpniekservera API atslēgu. Jūsu kods var palikt nemainīgs, kamēr starpniekserveris aizkulisēs nomaina pakalpojumu sniedzējus vai modeļus.
Q3:Vai LiteLLM var straumēt atbildes un atgriezt JSON?
Jā. Izmantojiet `stream=True`, lai iegūtu žetonu straumes, un `response_format` ar JSON shēmu, lai nodrošinātu strukturētu izvadi dažādiem pakalpojumu sniedzējiem.
Q4:Kā es varu kontrolēt izmaksas dažādiem LLM pakalpojumu sniedzējiem?
Iespējojiet lietojuma reģistrēšanu un izmaksu aprēķināšanu, pievienojiet kešatmiņas izmantošanu, iestatiet ātruma ierobežojumus un maršrutējiet lielapjoma datplūsmu uz lētākiem modeļiem, izmantojot starpniekserveri. Uzraugiet ar informācijas paneļiem budžetus un SLO.
Q5:Vai LiteLLM ir piemērots ražošanas komandām?
Jā. Starpniekserveris nodrošina autentifikāciju, ātruma ierobežojumus, maršrutēšanu, novērojamību un drošības starpprogrammatūru. Tas ir paredzēts kā LLM vārteja, kas centralizē pārvaldību, vienlaikus saglabājot jūsu lietotni saderīgu ar OpenAI.

Kā Lietot LiteLLM: Praktisks Ceļvedis ar Piemēriem, Padomiem un Reāliem Darba Procesiem