What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Jak používat LiteLLM: Praktický průvodce s příklady, odbornými tipy a skutečnými pracovními postupy

Pokud jste někdy přáli, aby každé rozhraní API modelu fungovalo jako OpenAI, LiteLLM si zamilujete. Jedná se o lehký gateway, který vám umožní volat přes 100 LLM pomocí jednoho OpenAI-kompatibilního rozhraní – lokálně v kódu nebo přes centrální proxy, kterou můžete sdílet v týmu. V tomto tutoriálu si projdeme instalaci, základní i pokročilé použití, streamování, dávkování, opakování volání, kešování, sledování nákladů a nasazení LiteLLM proxy s ochranami a směrováním. Přidáme také příklady v Pythonu a JavaScriptu a reálné vzory použití.

Stojí za zmínku: Pokud chcete rychle prototypovat dotazy, klást otázky napříč různými modely a organizovat výsledky, Sider.AI může být užitečným pomocníkem při výzkumu a iteracích, zatímco nastavujete svoji LiteLLM-podporovanou infrastrukturu. Doplní váš pracovní postup tím, že vám pomůže porovnávat výstupy a zdokonalovat dotazy, než je zapracujete do kódu.

Půjdeme praktickou a řešení orientovanou cestou, takže můžete jednoduše kopírovat, vkládat a nasadit.

Co je LiteLLM (a proč ho týmy používají)

Jedno API pro mnoho modelů: Volání Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock a dalších pomocí OpenAI-stylu funkcí.

Dva způsoby použití:

Klientská SDK (Python/JS): Rychlé použití ve skriptech, serverech, noteboocích.

Proxy (LLM Gateway): Centralizovaná služba pro směrování, autentizaci, logování, kontrolu nákladů a sledovatelnost.

Drop-in kompatibilita: Vyměňujte modely bez přepisování aplikace.

Operační funkce: Opakování volání, timeouty, streamování, dávkování, kešování, trasování a reportování nákladů přímo z krabice.

Pokud začínáte, pro rychlé pochopení doporučujeme oficiální dokumentaci Getting Started. Pro praktické příklady je tu skvělý DataCamp tutoriál se step-by-step kódem. Video kurz pro začátečníky rovněž pomůže.

Rychlý start: Instalace a první volání

Instalace

# Python
pip install litellm
# Node.js
npm install litellm

Proměnné prostředí

# Příklad: použití OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Minimální chatovací dokončení

from litellm import completion
resp = completion(
model="gpt-4o-mini", # nebo "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Streamování, nástroje a JSON režim
### Streamování odpovědí
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Náklady a používání tokenů
LiteLLM dokáže sledovat využití tokenů a odhadovat náklady na požadavek, model nebo projekt. S proxy můžete exportovat využití do logů, dashboardů nebo fakturačních systémů. To je neocenitelné, když kombinujete více dodavatelů s rozdílnými cenami.
---
## LiteLLM Proxy (LLM Gateway)
Jestli jste tým nebo platforma, proxy je opravdová síla: centrální služba se směrováním, autentizací, limity, logováním a sledovatelností. Komunikujete s ní přes OpenAI API, takže váš kód téměř neměníte.
### Spuštění Proxy
```bash
# nejjednodušší lokální spuštění
litellm --port 4000

Ve výchozím nastavení vystavuje endpointy kompatibilní s OpenAI, například /v1/chat/completions. Nasměrujte svého stávajícího OpenAI klienta na ` a jste hotovi.

Konfigurace poskytovatelů a klíčů

Vytvořte config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Spuštění s konfigurací:

litellm --config config.yaml --port 4000

Použití Proxy z OpenAI SDK (bez změn v kódu)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Pokročilé směrování: Latence, náklady nebo spolehlivost
Implementujte strategie směrování jako:
- Vážený round-robin pro A/B testování modelů
- Nejnižší latence dle regionu
- Cenově uvědomělé směrování pro nekritické endpointy
- Náhradní mechanismy při chybách/opakování volání napříč providery
S router politikou lze říci „preferuj levné, ale při náročných dotazech přepni na prémiové.“ To zajišťuje vysokou dostupnost a předvídatelné rozpočty.
---
## Ochranná opatření, moderace a bezpečnost
Přidejte middleware před a po zpracování k odstranění PII, prosazení bezpečnostních filtrů nebo moderaci výstupu před odesláním klientům. Kombinujte nativní moderaci poskytovatelů (např. OpenAI, Google) s vlastními pravidly v proxy. Například požadujte validaci JSON schématu a opětovnou otázku při neplatných datech.
---
## Sledovatelnost a logování
- Aktivujte logování požadavků/odpovědí s redakcí citlivých dat.
- Exportujte metriky do Prometheus/Grafana nebo do vašeho APM.
- Sledujte latenci, počet tokenů a náklady dle endpointu a uživatele.
Tím změníte „ruletu s modely“ na řízenou službu s SLO a rozpočty.
---
## Skutečné vzory použití
1) Multi-vendor odolnost
- Primární: rychlý/levný model; Záložní: vysoce přesný model při chybách 429/5xx.
- Výhody: lepší dostupnost, kontrola nákladů a stabilní kvalita.
2) Upgrady modelů pomocí feature flag
- Pomocí router vah canary zavádíte nový model na 5 % provozu; sledujete metriky; při stabilitě navyšujete.
3) Produktové úrovně
- Free úroveň směrována na malé modely; Pro úroveň na prémiové modely.
4) Repositáře a šablony promptů
- Centralizujte prompty v proxy, aby služby mohly dědit vylepšení bez redeploye.
5) Týmové účtování a rozpočty
- Sledujte výdaje podle API klíče; nastavte jemné a tvrdé limity pro týmy či produkty.
---
## Bezpečnostní a soulady kontrolní seznam
- Ukládejte klíče poskytovatelů ve svém manažeru tajemství; odkazujte je přes env vars v konfiguraci.
- Zapněte redakci požadavků a čištění PII v logech.
- Používejte unikátní API klíče pro proxy; pravidelně je obnovujte.
- Nastavte organizační limity a kvóty.
- Přidejte povolené a zakázané seznamy modelů a endpointů.
---
## Řešení problémů: Rychlé opravy
- „Unauthorized“ přes proxy: Zkontrolujte `auth.api_keys` a že klient používá správný `base_url` a klíč.
- Model nenalezen: Ujistěte se, že `model_list` obsahuje volané přátelské jméno modelu.
- Timeouty: Zvýšte `timeout` nebo směrujte na region s nižší latencí.
- Podivné výstupy: Zapněte JSON schemata a validaci; přidejte opakování a záložní varianty.
- Výkyvy nákladů: Použijte kešování; směrujte hromadný provoz na levnější modely; nastavte kvóty dle klíče.
Pro hlubší informace a nejnovější funkce se vyplatí sledovat oficiální dokumentaci, která je často aktualizovaná. Tutoriály jako DataCamp je skvělý způsob, jak se naučit praktické vzory, a video kurz pro začátečníky ukáže koncepty v akci.
---
## Kompletní příklad aplikace (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI()
@app.post("/ask")
async def ask(req: ChatReq):
    resp = completion(
        model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
        messages=.
    )
    return resp
### FAQ
Otázka 1: Co je LiteLLM a proč jej používat místo SDK přímo od poskytovatelů?
LiteLLM je OpenAI-kompatibilní gateway pro více než 100 LLM, která poskytuje jedno API a jeden mentální model. Snižuje závislost na jednom dodavateli, zjednodušuje směrování a přidává operační funkce jako kešování, opakování a sledování nákladů.
Otázka 2: Jak použít LiteLLM s OpenAI SDK?
Nasměrujte základní URL SDK na LiteLLM proxy a používejte svůj proxy klíč. Váš kód zůstane stejný, zatímco proxy za scénou přepíná mezi providery či modely.
Otázka 3: Umí LiteLLM streamovat odpovědi a vracet JSON?
Ano. Použijte `stream=True` pro získání tokenových proudů a parametr `response_format` s JSON schématem pro kontrolu strukturovaných výstupů u různých poskytovatelů.
Otázka 4: Jak kontrolovat náklady napříč různými LLM poskytovateli?
Aktivujte logování využití a odhad nákladů, přidejte kešování, nastavte limity rychlosti a směrujte hromadný provoz na levnější modely přes proxy. Sledujte vše na dashboardech pro rozpočty a SLO.

Jak používat LiteLLM: Praktický průvodce s příklady, profesionálními tipy a pracovními postupy z reálného světa