What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Kako koristiti LiteLLM: praktični vodič s primjerima, stručnim savjetima i stvarnim radnim tokovima

Ako ste ikada poželjeli da svaki model API funkcionira kao OpenAI-jev, svidjet će vam se LiteLLM. To je lagani gateway koji vam omogućuje pozivanje više od 100 LLM-ova putem jedinstvenog, s OpenAI-jem kompatibilnog sučelja — lokalno u kodu ili preko centralnog proxyja kojeg možete dijeliti u timovima. U ovom tutorijalu proći ćemo kroz instalaciju, osnovno i napredno korištenje, streaming, batchiranje, ponovne pokušaje, keširanje, praćenje troškova te postavljanje LiteLLM proxyja s sigurnosnim pravilima i usmjeravanjem. Također ćemo prikazati primjere u Pythonu i JavaScriptu te stvarne obrasce korištenja.

Vrijedi napomenuti: ako želite brz način za prototipiziranje promptova, postavljanje pitanja na više modela i organiziranje rezultata, Sider.AI može biti korisni saveznik za istraživanje i iteraciju dok postavljate svoj LiteLLM-based stack. Nadopunjuje vaš radni tok pomažući vam u usporedbi izlaza i rafiniranju promptova prije nego ih učvrstite u kod.

Krenut ćemo praktičnim i rješenjima orijentiranim pristupom, tako da možete jednostavno kopirati, zalijepiti i krenuti.

Što je LiteLLM (i zašto ga timovi koriste)

Jedan API za mnoge modele: pozivajte Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock i druge koristeći OpenAI-style funkcije.

Dva načina korištenja:

Klijentski SDK-ovi (Python/JS): brza upotreba u skriptama, serverima, noteboocima.

Proxy (LLM Gateway): centralizirana usluga za usmjeravanje, autentikaciju, logiranje, kontrolu troškova i nadzor.

Drop-in kompatibilnost: mijenjajte modele bez potrebe za prepravkom aplikacije.

Operativne značajke: ponovne pokušaje, timeout-e, streaming, batchiranje, keširanje, praćenje i izvještavanje o troškovima iz kutije.

Ako tek počinjete, pregledajte službenu dokumentaciju Getting Started za brzu mentalnu mapu. Za praktične primjere, DataCamp tutorial je odličan pratitelj sa korak-po-korak kodom. Ako preferirate video, postoji i kurs za početnike.

Brzi početak: instalacija i vaš prvi poziv

Instalirajte

# Python
pip install litellm
# Node.js
npm install litellm

Varijable okoline

# Primjer: korištenje OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: minimalni chat završetak

from litellm import completion
resp = completion(
model="gpt-4o-mini", # ili "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Streaming, alati i JSON moda
### Streaming odgovori
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Troškovi i potrošnja tokena
LiteLLM može pratiti potrošnju tokena i procijeniti trošak po zahtjevu, modelu ili projektu. S proxyjem možete izvoziti podatke u zapise, nadzorne ploče ili sustave za naplatu. Ovo je neprocjenjivo kad miješate dobavljače s različitim cijenama.
---
## LiteLLM Proxy (LLM Gateway)
Ako ste tim ili platforma, proxy je prava supersila: centralizirana usluga s usmjeravanjem, autentikacijom, ograničenjima, logiranjem i nadzorom. Komunicirate s njim kroz OpenAI API sučelje, pa vaša aplikacija jedva da se mijenja.
### Pokrenite Proxy
```bash
# najjednostavnije lokalno pokretanje
litellm --port 4000

Po defaultu, izlaže OpenAI-kompatibilne endpointove poput /v1/chat/completions. Postavite svog postojećeg OpenAI klijenta na ` i spremni ste.

Konfigurirajte pružatelje usluga i ključeve

Kreirajte config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Pokrenite s konfiguracijom:

litellm --config config.yaml --port 4000

Koristite Proxy iz OpenAI SDK-ova (bez promjene koda)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Napredno usmjeravanje: latencija, trošak ili pouzdanost
Možete implementirati strategije usmjeravanja poput:
- Weighted round-robin za A/B testiranje modela
- Prioritet na najnižu latenciju po regiji
- Usmjeravanje po troškovima za ne-kritične endpointove
- Rezerve pri grešci/ponovni pokušaji preko dobavljača
S politikom usmjeravanja možete reći "preferiraj jeftino, a za zahtjevnije promptove rezerve na premium." Ovo pruža visoku dostupnost i predvidljive budžete.
---
## Sigurnosna pravila, moderacija i sigurnost
Dodajte middleware za predtretman i posttretman kako biste uklonili PII, provodili sigurnosne filtre ili moderirali izlaze prije nego što budu vraćeni klijentima. Kombinirajte nativnu moderaciju providera (npr. OpenAI, Google) s vlastitim provjerama pravila u proxyju. Primjer: zahtijevajte validaciju JSON sheme i ponovite pitanje ako je nevaljana.
---
## Nadzor i zapisivanje
- Omogućite logiranje zahtjeva/odgovora s maskiranjem osjetljivih podataka.
- Izvozite metrike u Prometheus/Grafana ili svoj APM.
- Pratite latenciju, tokene i troškove po endpointu i korisniku.
Ovo pretvara "model rulet" u upravljanu uslugu s SLO i budžetima.
---
## Stvarni obrasci korištenja
1) Više dobavljača za otpornost
- Primarni: brz i jeftin model; rezerve: model visoke točnosti na greške 429/5xx.
- Prednosti: bolji uptime, kontrola troškova i stabilna kvaliteta.
2) Uvođenje novih modela putem feature flagova
- Koristite težine routera za testiranje novog modela na 5 % prometa; pratite metrike; povećavajte nakon stabilnosti.
3) Razine proizvoda
- Besplatni sloj usmjerava na male modele; Pro sloj na premium modele.
4) Registar i predlošci promptova
- Centralizirajte promtove u proxyju tako da servisi nasljeđuju poboljšanja bez ponovnog deploya.
5) Fakturiranje tima i budžeti
- Pratite potrošnju po API ključu; provodite mekane i tvrde limite po timu ili proizvodu.
---
## Sigurnosni i usklađeni kontrolni popis
- Pohranite ključeve providera u svoj menadžer tajni; referencirajte ih putem varijabli okoline u konfiguraciji.
- Uključite maskiranje zahtjeva i čišćenje PII u zapisima.
- Koristite API ključeve po servisu za proxy; redovito ih rotirajte.
- Postavite ograničenja i kvote na razini organizacije.
- Dodajte popise dopuštenih i zabranjenih modela i endpointa.
---
## Rješavanje problema: brza rješenja
- "Unauthorized" preko proxyja: provjerite `auth.api_keys` i da vaš klijent koristi ispravan `base_url` i ključ.
- Model nije pronađen: provjerite je li `model_list` sadržava ime modela koje koristite.
- Timeout-i: povećajte `timeout` ili usmjerite na regiju s nižom latencijom.
- Čudni odgovori: uključite JSON shemu i validaciju; dodajte ponovne pokušaje i rezerve.
- Nagle skokove troškova: uključite keširanje; usmjerite velik promet prema jeftinijim modelima; definirajte kvote po ključu.
Za dublju analizu i najnovije značajke, službena dokumentacija se redovito ažurira i vrijedi je staviti u favorite. Tutorijali poput onih na DataCampu izvrsni su za praktične obrasce, a crash course za početnike pomaže razumjeti koncepte u praksi.
---
## Sve u jedan: referentni primjer aplikacije (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI()
@app.post("/ask")
async def ask(req: ChatReq):
    resp = completion(
        model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
        messages=.
    )
    return resp
### Često postavljana pitanja
Q1: Što je LiteLLM i zašto ga koristiti umjesto direktnih SDK-ova providera?
LiteLLM je OpenAI-kompatibilan gateway za 100+ LLM-ova, koji vam daje jedan API i jednu mentalnu mapu. Smanjuje ovisnost o dobavljaču, pojednostavljuje usmjeravanje i dodaje operativne značajke poput keširanja, ponovnih pokušaja i praćenja troškova.
Q2: Kako koristiti LiteLLM s OpenAI SDK-om?
Postavite base URL SDK-a na LiteLLM proxy i koristite proxy API ključ. Vaš kod ostaje isti dok proxy iza scene mijenja dobavljače ili modele.
Q3: Može li LiteLLM streamati odgovore i vratiti JSON?
Da. Koristite `stream=True` za tokene u stvarnom vremenu, te `response_format` s JSON shemom za strukturirane izlaze preko više providera.
Q4: Kako kontrolirati troškove između različitih LLM providera?
Omogućite logiranje upotrebe i procjenu troškova, dodajte keširanje, postavite ograničenja brzine i usmjerite većinu prometa na jeftinije modele putem proxyja. Pratite dashboarde za budžete i SLO.
Q5: Je li LiteLLM prikladan za produkcijske timove?

Kako koristiti LiteLLM: Praktični vodič s primjerima, profesionalnim savjetima i stvarnim tijekovima rada