Sider.ai
  • Čet
  • Wisebase
  • Алати
  • Продужетак
  • Клијенти
  • Прицинг
Преузми сада
Пријавите се

Učite brže, razmišljajte dublje i rastite pametnije uz Sider.

Proizvodi
Aplikacije
  • Ekstenzije
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
Alati
  • Kreator vebaNew
  • AI SlajdoviNew
  • AI Pisac Eseja
  • Nano Banana Pro
  • Nano Banana Infographic
  • AI Generator Slika
  • Italijanski generator mozgalica
  • Uklanjanje Pozadine
  • Menjač Pozadine
  • Brisanje Fotografija
  • Uklanjanje Teksta
  • Inpaint
  • Povećanje Rezolucije Slika
  • Kreiraj
  • AI Prevodilac
  • Prevodilac Slika
  • PDF Prevodilac
Sider
  • Kontaktirajte nas
  • Centar za pomoć
  • Preuzimanje
  • Cene
  • Plan obrazovanja
  • Šta je novo
  • Blog
  • Zajednica
  • Partneri
  • Partnerstvo
  • Pozovi
©2026 Sva prava zadržana
Uslovi korišćenja
Politika privatnosti
  • Почетна страница
  • Блог
  • AI Alati
  • Kako koristiti LiteLLM: Praktični vodič sa primerima, profesionalnim savetima i radnim tokovima iz stvarnog sveta

Kako koristiti LiteLLM: Praktični vodič sa primerima, profesionalnim savetima i radnim tokovima iz stvarnog sveta

Ažurirano 25. Sep. 2025.

6 min


Kako koristiti LiteLLM: Praktičan vodič sa primerima, stručnim savetima i stvarnim radnim tokovima

Ako ste ikada želeli da svi API-jevi modela rade kao OpenAI, LiteLLM će vam se sigurno dopasti. To je lagani gateway koji vam omogućava pozivanje preko 100 LLM modela kroz jedan, sa OpenAI-kompatibilnim interfejsom — lokalno u kodu ili preko centralnog proxy-ja koji možete deliti sa timovima. U ovom tutorialu proći ćemo kroz instalaciju, osnovnu i naprednu upotrebu, streaming, grupisanje zahteva (batching), retry mehanizme, keširanje, praćenje troškova i deployment LiteLLM proxy-ja sa bezbednosnim merama i rutiranjem. Takođe ćemo uključiti primere u Pythonu i JavaScript-u i prikazati stvarne upotrebljene obrasce.
Vredno je napomenuti: ako želite brz način da pravite prototipe promptova, postavljate pitanja na više modela i organizujete rezultate, Sider.AI može biti odličan saputnik za istraživanje i iteracije dok gradite svoj LiteLLM osnovani stack. On dopunjava vaš radni tok pomažući vam da uporedite rezultate i usavršite promptove pre nego što ih implementirate u kod.
Krenućemo praktično i rešavački, tako da možete lako prekopirati i primeniti.

Šta je LiteLLM (i zašto ga timovi koriste)

  • Jedan API za mnoge modele: Pozovite Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock i još mnogo drugih koristeći OpenAI-stil funkcija.
  • Dva načina za korišćenje:
  • Klijentski SDK-ovi (Python/JS): Brza upotreba u skriptama, serverima i notebook-ovima.
  • Proxy (LLM gateway): Centralizovana usluga za rutiranje, autentifikaciju, logovanje, kontrolu troškova i monitoring.
  • Drop-in kompatibilnost: Zamena modela bez potrebe za prepravkom aplikacije.
  • Operativne funkcije: Retry mehanizmi, timeouti, streaming, batching, keširanje, praćenje i izveštavanje o troškovima od starta.
Ako tek počinjete, pređite preko zvaničnih uputstava za početnike za brz pregled mentalnog modela. Za praktične primere, DataCamp tutorial je odličan saputnik sa korak-po-korak kodom. Ako više volite video, dostupni su i video kursevi prilagođeni početnicima.

Brzi početak: Instalacija i vaš prvi poziv

Instalirajte

# Python
pip install litellm
# Node.js
npm install litellm

Promenljive okruženja

# Primer: korišćenje OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Minimalna Chat Kompletacija

from litellm import completion
resp = completion(
model="gpt-4o-mini", # ili "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Streaming, alati i JSON režim
### Streaming odgovori
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Praćenje troškova i broja tokena
LiteLLM može pratiti korišćenje tokena i proceniti troškove po zahtevu, modelu ili projektu. Korišćenjem proxy-ja možete izvoziti podatke u logove, nadzorne tablice ili sistem za naplatu. Ovo je nezamenljivo kada kombinujete provajdere sa različitim cenama.
---
## LiteLLM Proxy (LLM Gateway)
Ako ste tim ili platforma, proxy je prava supermoć: centralizovana usluga sa rutiranjem, autentifikacijom, ograničenjima brzine, logovanjem i monitoringom. Komunicirate sa njom koristeći OpenAI API, tako da se vaš aplikacioni kod skoro i ne menja.
### Pokrenite Proxy
```bash
# najjednostavnije lokalno pokretanje
litellm --port 4000
Po defaultu, izlaže OpenAI-kompatibilne endpoint-e kao /v1/chat/completions. Usmerite vaš postojeći OpenAI klijent na ` i spremni ste za rad.

Konfigurišite provajdere i ključeve

Kreirajte config.yaml:
model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123
Pokrenite sa konfiguracijom:
litellm --config config.yaml --port 4000

Koristite Proxy iz OpenAI SDK-ova (bez izmena koda)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Napredno rutiranje: Latencija, troškovi ili pouzdanost
Možete implementirati strategije rutiranja kao što su:
- Weighted round-robin za A/B testiranje modela
- Prvi po najmanjoj latenciji po regionu
- Rutiranje s obzirom na troškove za manje kritične krajnje tačke
- Fallback na grešku/retry između provajdera
Sa ruting politikom, možete reći “preferaš jeftino, a ako je zahtev težak koristi premium”. Ovo obezbeđuje visoku dostupnost i predvidive budžete.
---
## Bezbednosne mere, moderacija i sigurnost
Dodajte middleware pre i posle obrade da uklonite lične podatke (PII), primenite filtere sigurnosti ili moderaciju pre nego što odgovori stignu do klijenta. Kombinujte moderaciju koju pružaju provajderi (npr. OpenAI, Google) sa vašim internim politikama u proxy-ju. Na primer: zahtevajte validaciju JSON šeme i ponovite upit ako nije validan.
---
## Monitoring i logovanje
- Omogućite logovanje zahteva/odgovora sa uklanjanjem osetljivih podataka.
- Izvezite metrike u Prometheus/Grafana ili vaš APM alat.
- Pratite latenciju, tokene i troškove po endpoint-u i korisniku.
Ovo pretvara “avantu modela” u upravljanu uslugu sa SLO i budžetima.
---
## Praktični obrasci korišćenja
1) Otpornost sa više provajdera
- Primarni: brz i jeftin model; Fallback: model sa visokom tačnošću na greške 429/5xx.
- Prednosti: bolja dostupnost, kontrola troškova i stabilan kvalitet.
2) Ažuriranja modela kao feature flag
- Korišćenje težina rutera za kanarinsko puštanje novog modela na 5% saobraćaja; praćenje metrika; postepeno povećavanje kad je stabilno.
3) Tiers proizvoda
- Besplatni sloj usmeren na male modele; Pro sloj na premium modele.
4) Registri promptova i šabloni
- Centralizujte promptove u proxy-ju, tako da servisi nasleđuju poboljšanja bez redeploy-ja.
5) Timsko budžetiranje i naplata
- Pratite troškove po API ključu; primenjujte mekane i tvrde limite po timu ili proizvodu.
---
## Lista provere bezbednosti i usklađenosti
- Čuvajte ključeve provajdera u vašem menadžeru tajni; referencirajte ih preko env varijabli u konfiguraciji.
- Uključite uklanjanje osetljivih podataka (redaction) i skrabovanje PII u logovima.
- Koristite specifične API ključeve za proxy po servisu; redovno ih rotirajte.
- Postavite organizacione limite brzine i kvote.
- Dodajte dozvoljene ili blokirane liste za modele i endpoint-e.
---
## Rešavanje problema: Brza rešenja
- "Unauthorized" preko proxy-ja: Proverite `auth.api_keys` i da vaš klijent koristi odgovarajući `base_url` i ključ.
- Model nije pronađen: Proverite da `model_list` sadrži ime modela koji pozivate.
- Timeout-i: Povećajte `timeout` ili rutirajte na regiju sa manjom latencijom.
- Neobični odgovori: Omogućite JSON šemu + validaciju; dodajte retry i fallback mehanizme.
- Skokovi u troškovima: Uključite keširanje; rutirajte velike zahteve na jeftinije modele; postavite kvote po ključu.
Za dublje analize i najnovije funkcije, zvanična dokumentacija se često ažurira i vredi je bookmarkovati. Tutorijali poput DataCamp vodiča su odlični za praktične obrasce, a crash course video pomaže da vidite koncepte u akciji.
---
## Sve objedinjeno: Referentni kostur aplikacije (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI()
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### Često postavljana pitanja (FAQ)
P1: Šta je LiteLLM i zašto ga koristiti umesto direktnih SDK-ova provajdera?
LiteLLM je OpenAI-kompatibilan gateway za preko 100 LLM-ova, pružajući vam jedan API i jednostavan mentalni model. Smanjuje zavisnost od jednog provajdera, pojednostavljuje rutiranje i dodaje operativne funkcije kao što su keširanje, retry i praćenje troškova.
P2: Kako da koristim LiteLLM sa OpenAI SDK-om?
Usmerite base URL SDK-a na LiteLLM proxy i koristite API ključ proxy-ja. Vaš kod ostaje isti dok proxy u pozadini menja provajdere ili modele.
P3: Da li LiteLLM može da isporuči streaming odgovore i vraća JSON?
Da. Koristite `stream=True` za dobijanje token strimova i `response_format` sa JSON šemom da obezbedite strukturirane izlaze preko različitih provajdera.
P4: Kako da kontrolišem troškove između različitih LLM provajdera?
Omogućite logovanje upotrebe i procenu troškova, dodajte keširanje, postavite rate limit-e i rutirajte velike zahteve na jeftinije modele preko proxy-ja. Pratite sve preko dashboard-a za budžete i SLO-e.
P5: Da li je LiteLLM pogodan za proizvodne timove?
Da. Proxy nudi autentifikaciju, ograničenja brzine, rutiranje, monitoring i bezbednosni middleware. Dizajniran je kao gateway koji centralizuje upravljanje dok vaša aplikacija ostaje OpenAI-kompatibilna.

Nedavni članci
Kako savladati ChatPDF: Brže do uvida iz složenih dokumenata

Kako savladati ChatPDF: Brže do uvida iz složenih dokumenata

Najbolja alternativa za X Auto-Translation za brze i precizne dokumente

Najbolja alternativa za X Auto-Translation za brze i precizne dokumente

Samsung AI Prevod Nije Dostupan u Iranu? Praktična Rešenja

Samsung AI Prevod Nije Dostupan u Iranu? Praktična Rešenja

Alati za prevođenje na persijski: praktičan vodič za brži i tačniji rad

Alati za prevođenje na persijski: praktičan vodič za brži i tačniji rad

Najbolja Grok alternativa za dubinsko, citirano istraživanje

Najbolja Grok alternativa za dubinsko, citirano istraživanje

Top 15 Funkcija AI Generatora Slika Koje Ćete Zaista Koristiti

Top 15 Funkcija AI Generatora Slika Koje Ćete Zaista Koristiti