What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Ako používať LiteLLM: praktický návod s príkladmi, profesionálne tipy a reálne pracovné postupy

Ak ste niekedy túžili, aby každý API model fungoval ako OpenAI, LiteLLM vás určite nadchne. Je to ľahký gateway, ktorý vám umožní volať viac ako 100 LLM modelov cez jedno, s OpenAI kompatibilné rozhranie – priamo v kóde alebo cez centrálny proxy server, ktorý môžete zdieľať v tímoch. V tomto návode prejdeme inštaláciou, základným aj pokročilým používaním, streamovaním, dávkovaním, opakovaním volaní, cachingom, sledovaním nákladov a nasadením LiteLLM proxy s ochrannými mechanizmami a smerovaním. Pridáme aj príklady v Pythone a JavaScripte a ukážeme reálne vzory použitia.

Stojí za zmienku: ak chcete rýchlo prototypovať prompt-y, klásť otázky viacerým modelom a organizovať výsledky, Sider.AI je skvelý pomocník na výskum a iteráciu, keď si nastavujete svoj LiteLLM stack. Dopĺňa váš pracovný postup tým, že pomáha porovnať výstupy a doladiť prompt-y pred ich zakódovaním.

Zvolíme praktický a riešeniami orientovaný prístup, aby ste mohli jednoducho kopírovať a spúšťať.

Čo je LiteLLM (a prečo ho tímy používajú)

Jedno API pre mnoho modelov: Volajte Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock a ďalšie pomocou funkcií v štýle OpenAI.

Dva spôsoby použitia:

Klientské SDK (Python/JS): Rýchle použitie v skriptoch, serveroch alebo poznámkových blokoch.

Proxy (LLM brána): Centralizovaná služba pre smerovanie, autentifikáciu, logovanie, kontrolu nákladov a monitorovanie.

Kompatibilita drop-in: Vymieňajte modely bez prepísania aplikácie.

Prevádzkové funkcie: Opakovania, timeouty, streamovanie, dávkovanie, caching, sledovanie a reportovanie nákladov sú súčasťou balíka.

Ak začínate, prečítajte si oficiálnu dokumentáciu Začíname pre rýchly mentálny model. Na praktické príklady je dobrý DataCamp tutoriál so skúsenosťami krok za krokom. Ak preferujete video, k dispozícii je aj kurz pre začiatočníkov.

Rýchly štart: Inštalácia a prvé volanie

Inštalácia

# Python
pip install litellm
# Node.js
npm install litellm

Premenné prostredia

# Príklad: používanie OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Minimálne chatovacie dokončenie

from litellm import completion
resp = completion(
model="gpt-4o-mini", # alebo "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Streamovanie, nástroje a JSON režim
### Streamovanie odpovedí
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Náklady a využitie tokenov
LiteLLM dokáže sledovať využitie tokenov a odhadovať náklady na požiadavku, model alebo projekt. S proxy môžete exportovať využitie do logov, na dashboardy alebo do fakturačného systému. To je neoceniteľné, keď kombinujete rôznych poskytovateľov s rozdielnymi cenami.
---
## LiteLLM Proxy (LLM brána)
Ak ste tím alebo platforma, proxy je skutočnou super silou: centralizovaná služba s routovaním, autentifikáciou, limitmi, logovaním a monitorovaním. Komunikujete s ňou cez OpenAI API rozhranie, takže váš aplikačný kód sa takmer nemení.
### Spustenie proxy
```bash
# najjednoduchšie lokálne spustenie
litellm --port 4000

Štandardne vystavuje OpenAI-kompatibilné koncové body ako /v1/chat/completions. Nasmerujte svoj existujúci OpenAI klient na ` a ste pripravení.

Konfigurácia poskytovateľov a kľúčov

Vytvorte config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Spustite s konfiguráciou:

litellm --config config.yaml --port 4000

Použitie proxy s OpenAI SDK (bez zmien v kóde)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Pokročilé smerovanie: latencia, náklady alebo spoľahlivosť
Môžete implementovať stratégie smerovania ako:
- Vážené round-robin na A/B testovanie modelov
- Najnižšia latencia podľa regiónu
- Smerovanie podľa nákladov pre nekritické koncové body
- Pátranie po chybe/Opakovanie cez viacerých poskytovateľov
S router politikou môžete povedať „preferuj lacné, v prípade potreby použij premium pre náročné prompt-y.“ To ponúka vysokú dostupnosť a predvídateľný rozpočet.
---
## Ochranné mechanizmy, moderovanie a bezpečnosť
Pridajte pre- a post-procesing middleware na odstránenie PII, dodržiavanie bezpečnostných filtrov alebo moderovanie výstupov pred odoslaním klientovi. Kombinujte natívne moderovanie poskytovateľov (napr. OpenAI, Google) s vlastnými kontrolami v proxy. Príklad: vyžadujte validáciu JSON schémy a opakujte otázku, ak je neplatná.
---
## Monitorovanie a logovanie
- Zapnite logovanie požiadaviek a odpovedí s redakciou údajov.
- Exportujte metriky do Prometheus/Grafana alebo vášho APM.
- Sledujte latenciu, tokeny a náklady podľa endpointu a používateľa.
Tým sa „modelová ruleta“ premení na manažovanú službu s SLO a rozpočtami.
---
## Reálne modely použitia
1) Odolnosť voči viacerým dodávateľom
- Primárny: rýchly/lacný model; záloha: vysoko presný model pri chybe 429/5xx.
- Výhody: lepšia dostupnosť, kontrola nákladov a stabilná kvalita.
2) Aktualizácie modelov cez feature flagy
- Použite váhy routovania na canary nasadenie nového modelu pre 5 % prevádzky; sledujte metriky; zväčšujte záber, keď je stabilné.
3) Produktové úrovne
- Bezplatná úroveň smerovaná na malé modely; Pro úroveň na prémiové modely.
4) Registratúry a šablóny promptov
- Centralizujte prompt-y v proxy, aby služby získavali zlepšenia bez znovunasadenia.
5) Fakturácia a rozpočty tímu
- Sledujte výdavky podľa API kľúča; nastavte mäkké a tvrdé limity pre tím alebo produkt.
---
## Kontrolný zoznam bezpečnosti a súladu
- Ukladajte kľúče poskytovateľov v správcovi tajomstiev; odkazujte na ne cez premenné prostredia v konfigurácii.
- Zapnite redakciu požiadaviek a čistenie PII v logoch.
- Používajte API kľúče na službu pre proxy; pravidelne ich rotujte.
- Nastavte organizačné limity a kvóty.
- Pridajte povolené a zakázané zoznamy pre modely a endpointy.
---
## Riešenie problémov: Rýchle opravy
- „Unauthorized“ cez proxy: Skontrolujte `auth.api_keys` a či klient používa správny `base_url` a kľúč.
- Model nenájdený: Overte, či `model_list` obsahuje správny názov modelu, ktorý voláte.
- Timeouty: Zvýšte `timeout` alebo presmerujte na región s nižšou latenciou.
- Neštandardné výstupy: Zapnite JSON schému a validáciu; pridajte opakovania a zálohy.
- Nárasty nákladov: Zapnite caching; presmerujte veľké objemy na lacnejšie modely; nastavte kvóty podľa kľúčov.
Pre hlbšie štúdium a nové funkcie sú oficiálne dokumenty často aktualizované a stojí za to ich mať v záložkách. Tutoriály ako DataCamp sú výborné na praktické vzory a začiatočnícky crash kurz vo videu ukáže koncepty v akcii.
---
## Kompletný príklad referenčnej aplikácie (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI()
@app.post("/ask")
async def ask(req: ChatReq):
    resp = completion(
        model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
        messages=.
    )
    return resp
### Často kladené otázky
Q1: Čo je LiteLLM a prečo ho používať namiesto priameho SDK poskytovateľa?
LiteLLM je OpenAI-kompatibilný gateway pre viac než 100 LLM, ktorý vám poskytuje jedno API a jeden mentálny model. Znižuje závislosť na dodávateľovi, zjednodušuje smerovanie a pridáva operačné funkcie ako caching, opakovania a sledovanie nákladov.
Q2: Ako používať LiteLLM s OpenAI SDK?
Smerujte base URL SDK na LiteLLM proxy a používajte svoj API kľúč proxy. Váš kód zostáva nezmenený, zatiaľ čo proxy môže zamieňať poskytovateľov alebo modely na pozadí.
Q3: Môže LiteLLM streamovať odpovede a vracať JSON?
Áno. Použite `stream=True` pre tokenové prúdy a `response_format` s JSON schémou pre štruktúrované výstupy naprieč poskytovateľmi.
Q4: Ako kontrolovať náklady naprieč rôznymi poskytovateľmi LLM?
Zapnite logovanie využitia a odhad nákladov, pridajte caching, nastavte limity a presmerujte veľké objemy na lacnejšie modely cez proxy. Sledujte to pomocou dashboardov pre rozpočty a SLO.

Ako používať LiteLLM: Praktický sprievodca s príkladmi, profesionálnymi tipmi a reálnymi pracovnými postupmi