What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Kako koristiti LiteLLM: Praktičan vodič sa primerima, stručnim savetima i stvarnim radnim tokovima

Ako ste ikada želeli da svi API-jevi modela rade kao OpenAI, LiteLLM će vam se sigurno dopasti. To je lagani gateway koji vam omogućava pozivanje preko 100 LLM modela kroz jedan, sa OpenAI-kompatibilnim interfejsom — lokalno u kodu ili preko centralnog proxy-ja koji možete deliti sa timovima. U ovom tutorialu proći ćemo kroz instalaciju, osnovnu i naprednu upotrebu, streaming, grupisanje zahteva (batching), retry mehanizme, keširanje, praćenje troškova i deployment LiteLLM proxy-ja sa bezbednosnim merama i rutiranjem. Takođe ćemo uključiti primere u Pythonu i JavaScript-u i prikazati stvarne upotrebljene obrasce.

Vredno je napomenuti: ako želite brz način da pravite prototipe promptova, postavljate pitanja na više modela i organizujete rezultate, Sider.AI može biti odličan saputnik za istraživanje i iteracije dok gradite svoj LiteLLM osnovani stack. On dopunjava vaš radni tok pomažući vam da uporedite rezultate i usavršite promptove pre nego što ih implementirate u kod.

Krenućemo praktično i rešavački, tako da možete lako prekopirati i primeniti.

Šta je LiteLLM (i zašto ga timovi koriste)

Jedan API za mnoge modele: Pozovite Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock i još mnogo drugih koristeći OpenAI-stil funkcija.

Dva načina za korišćenje:

Klijentski SDK-ovi (Python/JS): Brza upotreba u skriptama, serverima i notebook-ovima.

Proxy (LLM gateway): Centralizovana usluga za rutiranje, autentifikaciju, logovanje, kontrolu troškova i monitoring.

Drop-in kompatibilnost: Zamena modela bez potrebe za prepravkom aplikacije.

Operativne funkcije: Retry mehanizmi, timeouti, streaming, batching, keširanje, praćenje i izveštavanje o troškovima od starta.

Ako tek počinjete, pređite preko zvaničnih uputstava za početnike za brz pregled mentalnog modela. Za praktične primere, DataCamp tutorial je odličan saputnik sa korak-po-korak kodom. Ako više volite video, dostupni su i video kursevi prilagođeni početnicima.

Brzi početak: Instalacija i vaš prvi poziv

Instalirajte

# Python
pip install litellm
# Node.js
npm install litellm

Promenljive okruženja

# Primer: korišćenje OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Minimalna Chat Kompletacija

from litellm import completion
resp = completion(
model="gpt-4o-mini", # ili "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Streaming, alati i JSON režim
### Streaming odgovori
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Praćenje troškova i broja tokena
LiteLLM može pratiti korišćenje tokena i proceniti troškove po zahtevu, modelu ili projektu. Korišćenjem proxy-ja možete izvoziti podatke u logove, nadzorne tablice ili sistem za naplatu. Ovo je nezamenljivo kada kombinujete provajdere sa različitim cenama.
---
## LiteLLM Proxy (LLM Gateway)
Ako ste tim ili platforma, proxy je prava supermoć: centralizovana usluga sa rutiranjem, autentifikacijom, ograničenjima brzine, logovanjem i monitoringom. Komunicirate sa njom koristeći OpenAI API, tako da se vaš aplikacioni kod skoro i ne menja.
### Pokrenite Proxy
```bash
# najjednostavnije lokalno pokretanje
litellm --port 4000

Po defaultu, izlaže OpenAI-kompatibilne endpoint-e kao /v1/chat/completions. Usmerite vaš postojeći OpenAI klijent na ` i spremni ste za rad.

Konfigurišite provajdere i ključeve

Kreirajte config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Pokrenite sa konfiguracijom:

litellm --config config.yaml --port 4000

Koristite Proxy iz OpenAI SDK-ova (bez izmena koda)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Napredno rutiranje: Latencija, troškovi ili pouzdanost
Možete implementirati strategije rutiranja kao što su:
- Weighted round-robin za A/B testiranje modela
- Prvi po najmanjoj latenciji po regionu
- Rutiranje s obzirom na troškove za manje kritične krajnje tačke
- Fallback na grešku/retry između provajdera
Sa ruting politikom, možete reći “preferaš jeftino, a ako je zahtev težak koristi premium”. Ovo obezbeđuje visoku dostupnost i predvidive budžete.
---
## Bezbednosne mere, moderacija i sigurnost
Dodajte middleware pre i posle obrade da uklonite lične podatke (PII), primenite filtere sigurnosti ili moderaciju pre nego što odgovori stignu do klijenta. Kombinujte moderaciju koju pružaju provajderi (npr. OpenAI, Google) sa vašim internim politikama u proxy-ju. Na primer: zahtevajte validaciju JSON šeme i ponovite upit ako nije validan.
---
## Monitoring i logovanje
- Omogućite logovanje zahteva/odgovora sa uklanjanjem osetljivih podataka.
- Izvezite metrike u Prometheus/Grafana ili vaš APM alat.
- Pratite latenciju, tokene i troškove po endpoint-u i korisniku.
Ovo pretvara “avantu modela” u upravljanu uslugu sa SLO i budžetima.
---
## Praktični obrasci korišćenja
1) Otpornost sa više provajdera
- Primarni: brz i jeftin model; Fallback: model sa visokom tačnošću na greške 429/5xx.
- Prednosti: bolja dostupnost, kontrola troškova i stabilan kvalitet.
2) Ažuriranja modela kao feature flag
- Korišćenje težina rutera za kanarinsko puštanje novog modela na 5% saobraćaja; praćenje metrika; postepeno povećavanje kad je stabilno.
3) Tiers proizvoda
- Besplatni sloj usmeren na male modele; Pro sloj na premium modele.
4) Registri promptova i šabloni
- Centralizujte promptove u proxy-ju, tako da servisi nasleđuju poboljšanja bez redeploy-ja.
5) Timsko budžetiranje i naplata
- Pratite troškove po API ključu; primenjujte mekane i tvrde limite po timu ili proizvodu.
---
## Lista provere bezbednosti i usklađenosti
- Čuvajte ključeve provajdera u vašem menadžeru tajni; referencirajte ih preko env varijabli u konfiguraciji.
- Uključite uklanjanje osetljivih podataka (redaction) i skrabovanje PII u logovima.
- Koristite specifične API ključeve za proxy po servisu; redovno ih rotirajte.
- Postavite organizacione limite brzine i kvote.
- Dodajte dozvoljene ili blokirane liste za modele i endpoint-e.
---
## Rešavanje problema: Brza rešenja
- "Unauthorized" preko proxy-ja: Proverite `auth.api_keys` i da vaš klijent koristi odgovarajući `base_url` i ključ.
- Model nije pronađen: Proverite da `model_list` sadrži ime modela koji pozivate.
- Timeout-i: Povećajte `timeout` ili rutirajte na regiju sa manjom latencijom.
- Neobični odgovori: Omogućite JSON šemu + validaciju; dodajte retry i fallback mehanizme.
- Skokovi u troškovima: Uključite keširanje; rutirajte velike zahteve na jeftinije modele; postavite kvote po ključu.
Za dublje analize i najnovije funkcije, zvanična dokumentacija se često ažurira i vredi je bookmarkovati. Tutorijali poput DataCamp vodiča su odlični za praktične obrasce, a crash course video pomaže da vidite koncepte u akciji.
---
## Sve objedinjeno: Referentni kostur aplikacije (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI()
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### Često postavljana pitanja (FAQ)
P1: Šta je LiteLLM i zašto ga koristiti umesto direktnih SDK-ova provajdera?
LiteLLM je OpenAI-kompatibilan gateway za preko 100 LLM-ova, pružajući vam jedan API i jednostavan mentalni model. Smanjuje zavisnost od jednog provajdera, pojednostavljuje rutiranje i dodaje operativne funkcije kao što su keširanje, retry i praćenje troškova.
P2: Kako da koristim LiteLLM sa OpenAI SDK-om?
Usmerite base URL SDK-a na LiteLLM proxy i koristite API ključ proxy-ja. Vaš kod ostaje isti dok proxy u pozadini menja provajdere ili modele.
P3: Da li LiteLLM može da isporuči streaming odgovore i vraća JSON?
Da. Koristite `stream=True` za dobijanje token strimova i `response_format` sa JSON šemom da obezbedite strukturirane izlaze preko različitih provajdera.
P4: Kako da kontrolišem troškove između različitih LLM provajdera?
Omogućite logovanje upotrebe i procenu troškova, dodajte keširanje, postavite rate limit-e i rutirajte velike zahteve na jeftinije modele preko proxy-ja. Pratite sve preko dashboard-a za budžete i SLO-e.
P5: Da li je LiteLLM pogodan za proizvodne timove?
Da. Proxy nudi autentifikaciju, ograničenja brzine, rutiranje, monitoring i bezbednosni middleware. Dizajniran je kao gateway koji centralizuje upravljanje dok vaša aplikacija ostaje OpenAI-kompatibilna.

Kako koristiti LiteLLM: Praktični vodič sa primerima, profesionalnim savetima i radnim tokovima iz stvarnog sveta