Ažurirano 25. ruj. 2025
6 min
# Pythonpip install litellm# Node.jsnpm install litellm# Primjer: korištenje OpenAI + Anthropic + Mistralexport OPENAI_API_KEY=sk-...export ANTHROPIC_API_KEY=sk-ant-...export MISTRAL_API_KEY=sk-mis-...from litellm import completionresp = completion(model="gpt-4o-mini", # ili "anthropic/claude-3-5-sonnet", "mistral/mistral-large"messages=.---## Streaming, alati i JSON moda### Streaming odgovori```pythonfrom litellm import completionfor chunk in completion(model="gpt-4o-mini",messages=.### Troškovi i potrošnja tokenaLiteLLM može pratiti potrošnju tokena i procijeniti trošak po zahtjevu, modelu ili projektu. S proxyjem možete izvoziti podatke u zapise, nadzorne ploče ili sustave za naplatu. Ovo je neprocjenjivo kad miješate dobavljače s različitim cijenama.---## LiteLLM Proxy (LLM Gateway)Ako ste tim ili platforma, proxy je prava supersila: centralizirana usluga s usmjeravanjem, autentikacijom, ograničenjima, logiranjem i nadzorom. Komunicirate s njim kroz OpenAI API sučelje, pa vaša aplikacija jedva da se mijenja.### Pokrenite Proxy```bash# najjednostavnije lokalno pokretanjelitellm --port 4000/v1/chat/completions. Postavite svog postojećeg OpenAI klijenta na ` i spremni ste.config.yaml:model_list:- model_name: gpt-4o-minilitellm_params:model: openai/gpt-4o-miniapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}router:strategy: simple_weightedroutes:- model: gpt-4o-miniweight: 0.6- model: claude-3-5-sonnetweight: 0.4rate_limits:requests_per_minute: 120logging:level: infosink: stdoutauth:api_keys:- key: svc-app-123litellm --config config.yaml --port 4000from openai import OpenAIclient = OpenAI(base_url=" api_key="svc-app-123")resp = client.chat.completions.create(model="gpt-4o-mini",messages=.---## Napredno usmjeravanje: latencija, trošak ili pouzdanostMožete implementirati strategije usmjeravanja poput:- Weighted round-robin za A/B testiranje modela- Prioritet na najnižu latenciju po regiji- Usmjeravanje po troškovima za ne-kritične endpointove- Rezerve pri grešci/ponovni pokušaji preko dobavljačaS politikom usmjeravanja možete reći "preferiraj jeftino, a za zahtjevnije promptove rezerve na premium." Ovo pruža visoku dostupnost i predvidljive budžete.---## Sigurnosna pravila, moderacija i sigurnostDodajte middleware za predtretman i posttretman kako biste uklonili PII, provodili sigurnosne filtre ili moderirali izlaze prije nego što budu vraćeni klijentima. Kombinirajte nativnu moderaciju providera (npr. OpenAI, Google) s vlastitim provjerama pravila u proxyju. Primjer: zahtijevajte validaciju JSON sheme i ponovite pitanje ako je nevaljana.---## Nadzor i zapisivanje- Omogućite logiranje zahtjeva/odgovora s maskiranjem osjetljivih podataka.- Izvozite metrike u Prometheus/Grafana ili svoj APM.- Pratite latenciju, tokene i troškove po endpointu i korisniku.Ovo pretvara "model rulet" u upravljanu uslugu s SLO i budžetima.---## Stvarni obrasci korištenja1) Više dobavljača za otpornost- Primarni: brz i jeftin model; rezerve: model visoke točnosti na greške 429/5xx.- Prednosti: bolji uptime, kontrola troškova i stabilna kvaliteta.2) Uvođenje novih modela putem feature flagova- Koristite težine routera za testiranje novog modela na 5 % prometa; pratite metrike; povećavajte nakon stabilnosti.3) Razine proizvoda- Besplatni sloj usmjerava na male modele; Pro sloj na premium modele.4) Registar i predlošci promptova- Centralizirajte promtove u proxyju tako da servisi nasljeđuju poboljšanja bez ponovnog deploya.5) Fakturiranje tima i budžeti- Pratite potrošnju po API ključu; provodite mekane i tvrde limite po timu ili proizvodu.---## Sigurnosni i usklađeni kontrolni popis- Pohranite ključeve providera u svoj menadžer tajni; referencirajte ih putem varijabli okoline u konfiguraciji.- Uključite maskiranje zahtjeva i čišćenje PII u zapisima.- Koristite API ključeve po servisu za proxy; redovito ih rotirajte.- Postavite ograničenja i kvote na razini organizacije.- Dodajte popise dopuštenih i zabranjenih modela i endpointa.---## Rješavanje problema: brza rješenja- "Unauthorized" preko proxyja: provjerite `auth.api_keys` i da vaš klijent koristi ispravan `base_url` i ključ.- Model nije pronađen: provjerite je li `model_list` sadržava ime modela koje koristite.- Timeout-i: povećajte `timeout` ili usmjerite na regiju s nižom latencijom.- Čudni odgovori: uključite JSON shemu i validaciju; dodajte ponovne pokušaje i rezerve.- Nagle skokove troškova: uključite keširanje; usmjerite velik promet prema jeftinijim modelima; definirajte kvote po ključu.Za dublju analizu i najnovije značajke, službena dokumentacija se redovito ažurira i vrijedi je staviti u favorite. Tutorijali poput onih na DataCampu izvrsni su za praktične obrasce, a crash course za početnike pomaže razumjeti koncepte u praksi.---## Sve u jedan: referentni primjer aplikacije (Python FastAPI)```python# app.pyfrom fastapi import FastAPIfrom pydantic import BaseModelfrom litellm import completionimport osclass ChatReq(BaseModel):question: strapp = FastAPI()@app.post("/ask")async def ask(req: ChatReq): resp = completion( model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"), messages=. ) return resp### Često postavljana pitanjaQ1: Što je LiteLLM i zašto ga koristiti umjesto direktnih SDK-ova providera?LiteLLM je OpenAI-kompatibilan gateway za 100+ LLM-ova, koji vam daje jedan API i jednu mentalnu mapu. Smanjuje ovisnost o dobavljaču, pojednostavljuje usmjeravanje i dodaje operativne značajke poput keširanja, ponovnih pokušaja i praćenja troškova.Q2: Kako koristiti LiteLLM s OpenAI SDK-om?Postavite base URL SDK-a na LiteLLM proxy i koristite proxy API ključ. Vaš kod ostaje isti dok proxy iza scene mijenja dobavljače ili modele.Q3: Može li LiteLLM streamati odgovore i vratiti JSON?Da. Koristite `stream=True` za tokene u stvarnom vremenu, te `response_format` s JSON shemom za strukturirane izlaze preko više providera.Q4: Kako kontrolirati troškove između različitih LLM providera?Omogućite logiranje upotrebe i procjenu troškova, dodajte keširanje, postavite ograničenja brzine i usmjerite većinu prometa na jeftinije modele putem proxyja. Pratite dashboarde za budžete i SLO.Q5: Je li LiteLLM prikladan za produkcijske timove?
Kako savladati ChatPDF: Brže razumijevanje složenih dokumenata

Najbolja alternativa za X automatski prijevod za brze i točne dokumente

Samsung AI prijevod nije dostupan u Iranu? Praktična rješenja

Alati za prijevod na perzijski: praktični vodič za brži i točniji rad

Najbolja alternativa za Grok za dubinska, citirana istraživanja

Top 15 značajki generatora slika s umjetnom inteligencijom koje ćete zaista koristiti