Ažurirano 25. Sep. 2025.
6 min
# Pythonpip install litellm# Node.jsnpm install litellm# Primer: korišćenje OpenAI + Anthropic + Mistralexport OPENAI_API_KEY=sk-...export ANTHROPIC_API_KEY=sk-ant-...export MISTRAL_API_KEY=sk-mis-...from litellm import completionresp = completion(model="gpt-4o-mini", # ili "anthropic/claude-3-5-sonnet", "mistral/mistral-large"messages=.---## Streaming, alati i JSON režim### Streaming odgovori```pythonfrom litellm import completionfor chunk in completion(model="gpt-4o-mini",messages=.### Praćenje troškova i broja tokenaLiteLLM može pratiti korišćenje tokena i proceniti troškove po zahtevu, modelu ili projektu. Korišćenjem proxy-ja možete izvoziti podatke u logove, nadzorne tablice ili sistem za naplatu. Ovo je nezamenljivo kada kombinujete provajdere sa različitim cenama.---## LiteLLM Proxy (LLM Gateway)Ako ste tim ili platforma, proxy je prava supermoć: centralizovana usluga sa rutiranjem, autentifikacijom, ograničenjima brzine, logovanjem i monitoringom. Komunicirate sa njom koristeći OpenAI API, tako da se vaš aplikacioni kod skoro i ne menja.### Pokrenite Proxy```bash# najjednostavnije lokalno pokretanjelitellm --port 4000/v1/chat/completions. Usmerite vaš postojeći OpenAI klijent na ` i spremni ste za rad.config.yaml:model_list:- model_name: gpt-4o-minilitellm_params:model: openai/gpt-4o-miniapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}router:strategy: simple_weightedroutes:- model: gpt-4o-miniweight: 0.6- model: claude-3-5-sonnetweight: 0.4rate_limits:requests_per_minute: 120logging:level: infosink: stdoutauth:api_keys:- key: svc-app-123litellm --config config.yaml --port 4000from openai import OpenAIclient = OpenAI(base_url=" api_key="svc-app-123")resp = client.chat.completions.create(model="gpt-4o-mini",messages=.---## Napredno rutiranje: Latencija, troškovi ili pouzdanostMožete implementirati strategije rutiranja kao što su:- Weighted round-robin za A/B testiranje modela- Prvi po najmanjoj latenciji po regionu- Rutiranje s obzirom na troškove za manje kritične krajnje tačke- Fallback na grešku/retry između provajderaSa ruting politikom, možete reći “preferaš jeftino, a ako je zahtev težak koristi premium”. Ovo obezbeđuje visoku dostupnost i predvidive budžete.---## Bezbednosne mere, moderacija i sigurnostDodajte middleware pre i posle obrade da uklonite lične podatke (PII), primenite filtere sigurnosti ili moderaciju pre nego što odgovori stignu do klijenta. Kombinujte moderaciju koju pružaju provajderi (npr. OpenAI, Google) sa vašim internim politikama u proxy-ju. Na primer: zahtevajte validaciju JSON šeme i ponovite upit ako nije validan.---## Monitoring i logovanje- Omogućite logovanje zahteva/odgovora sa uklanjanjem osetljivih podataka.- Izvezite metrike u Prometheus/Grafana ili vaš APM alat.- Pratite latenciju, tokene i troškove po endpoint-u i korisniku.Ovo pretvara “avantu modela” u upravljanu uslugu sa SLO i budžetima.---## Praktični obrasci korišćenja1) Otpornost sa više provajdera- Primarni: brz i jeftin model; Fallback: model sa visokom tačnošću na greške 429/5xx.- Prednosti: bolja dostupnost, kontrola troškova i stabilan kvalitet.2) Ažuriranja modela kao feature flag- Korišćenje težina rutera za kanarinsko puštanje novog modela na 5% saobraćaja; praćenje metrika; postepeno povećavanje kad je stabilno.3) Tiers proizvoda- Besplatni sloj usmeren na male modele; Pro sloj na premium modele.4) Registri promptova i šabloni- Centralizujte promptove u proxy-ju, tako da servisi nasleđuju poboljšanja bez redeploy-ja.5) Timsko budžetiranje i naplata- Pratite troškove po API ključu; primenjujte mekane i tvrde limite po timu ili proizvodu.---## Lista provere bezbednosti i usklađenosti- Čuvajte ključeve provajdera u vašem menadžeru tajni; referencirajte ih preko env varijabli u konfiguraciji.- Uključite uklanjanje osetljivih podataka (redaction) i skrabovanje PII u logovima.- Koristite specifične API ključeve za proxy po servisu; redovno ih rotirajte.- Postavite organizacione limite brzine i kvote.- Dodajte dozvoljene ili blokirane liste za modele i endpoint-e.---## Rešavanje problema: Brza rešenja- "Unauthorized" preko proxy-ja: Proverite `auth.api_keys` i da vaš klijent koristi odgovarajući `base_url` i ključ.- Model nije pronađen: Proverite da `model_list` sadrži ime modela koji pozivate.- Timeout-i: Povećajte `timeout` ili rutirajte na regiju sa manjom latencijom.- Neobični odgovori: Omogućite JSON šemu + validaciju; dodajte retry i fallback mehanizme.- Skokovi u troškovima: Uključite keširanje; rutirajte velike zahteve na jeftinije modele; postavite kvote po ključu.Za dublje analize i najnovije funkcije, zvanična dokumentacija se često ažurira i vredi je bookmarkovati. Tutorijali poput DataCamp vodiča su odlični za praktične obrasce, a crash course video pomaže da vidite koncepte u akciji.---## Sve objedinjeno: Referentni kostur aplikacije (Python FastAPI)```python# app.pyfrom fastapi import FastAPIfrom pydantic import BaseModelfrom litellm import completionimport osclass ChatReq(BaseModel):question: strapp = FastAPI()@app.post("/ask")async def ask(req: ChatReq):resp = completion(model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),messages=.### Često postavljana pitanja (FAQ)P1: Šta je LiteLLM i zašto ga koristiti umesto direktnih SDK-ova provajdera?LiteLLM je OpenAI-kompatibilan gateway za preko 100 LLM-ova, pružajući vam jedan API i jednostavan mentalni model. Smanjuje zavisnost od jednog provajdera, pojednostavljuje rutiranje i dodaje operativne funkcije kao što su keširanje, retry i praćenje troškova.P2: Kako da koristim LiteLLM sa OpenAI SDK-om?Usmerite base URL SDK-a na LiteLLM proxy i koristite API ključ proxy-ja. Vaš kod ostaje isti dok proxy u pozadini menja provajdere ili modele.P3: Da li LiteLLM može da isporuči streaming odgovore i vraća JSON?Da. Koristite `stream=True` za dobijanje token strimova i `response_format` sa JSON šemom da obezbedite strukturirane izlaze preko različitih provajdera.P4: Kako da kontrolišem troškove između različitih LLM provajdera?Omogućite logovanje upotrebe i procenu troškova, dodajte keširanje, postavite rate limit-e i rutirajte velike zahteve na jeftinije modele preko proxy-ja. Pratite sve preko dashboard-a za budžete i SLO-e.P5: Da li je LiteLLM pogodan za proizvodne timove?Da. Proxy nudi autentifikaciju, ograničenja brzine, rutiranje, monitoring i bezbednosni middleware. Dizajniran je kao gateway koji centralizuje upravljanje dok vaša aplikacija ostaje OpenAI-kompatibilna.
Kako savladati ChatPDF: Brže do uvida iz složenih dokumenata

Najbolja alternativa za X Auto-Translation za brze i precizne dokumente

Samsung AI Prevod Nije Dostupan u Iranu? Praktična Rešenja

Alati za prevođenje na persijski: praktičan vodič za brži i tačniji rad

Najbolja Grok alternativa za dubinsko, citirano istraživanje

Top 15 Funkcija AI Generatora Slika Koje Ćete Zaista Koristiti