Aktualizované 25. sep 2025
6 min
# Pythonpip install litellm# Node.jsnpm install litellm# Príklad: používanie OpenAI + Anthropic + Mistralexport OPENAI_API_KEY=sk-...export ANTHROPIC_API_KEY=sk-ant-...export MISTRAL_API_KEY=sk-mis-...from litellm import completionresp = completion(model="gpt-4o-mini", # alebo "anthropic/claude-3-5-sonnet", "mistral/mistral-large"messages=.---## Streamovanie, nástroje a JSON režim### Streamovanie odpovedí```pythonfrom litellm import completionfor chunk in completion(model="gpt-4o-mini",messages=.### Náklady a využitie tokenovLiteLLM dokáže sledovať využitie tokenov a odhadovať náklady na požiadavku, model alebo projekt. S proxy môžete exportovať využitie do logov, na dashboardy alebo do fakturačného systému. To je neoceniteľné, keď kombinujete rôznych poskytovateľov s rozdielnymi cenami.---## LiteLLM Proxy (LLM brána)Ak ste tím alebo platforma, proxy je skutočnou super silou: centralizovaná služba s routovaním, autentifikáciou, limitmi, logovaním a monitorovaním. Komunikujete s ňou cez OpenAI API rozhranie, takže váš aplikačný kód sa takmer nemení.### Spustenie proxy```bash# najjednoduchšie lokálne spustenielitellm --port 4000/v1/chat/completions. Nasmerujte svoj existujúci OpenAI klient na ` a ste pripravení.config.yaml:model_list:- model_name: gpt-4o-minilitellm_params:model: openai/gpt-4o-miniapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}router:strategy: simple_weightedroutes:- model: gpt-4o-miniweight: 0.6- model: claude-3-5-sonnetweight: 0.4rate_limits:requests_per_minute: 120logging:level: infosink: stdoutauth:api_keys:- key: svc-app-123litellm --config config.yaml --port 4000from openai import OpenAIclient = OpenAI(base_url=" api_key="svc-app-123")resp = client.chat.completions.create(model="gpt-4o-mini",messages=.---## Pokročilé smerovanie: latencia, náklady alebo spoľahlivosťMôžete implementovať stratégie smerovania ako:- Vážené round-robin na A/B testovanie modelov- Najnižšia latencia podľa regiónu- Smerovanie podľa nákladov pre nekritické koncové body- Pátranie po chybe/Opakovanie cez viacerých poskytovateľovS router politikou môžete povedať „preferuj lacné, v prípade potreby použij premium pre náročné prompt-y.“ To ponúka vysokú dostupnosť a predvídateľný rozpočet.---## Ochranné mechanizmy, moderovanie a bezpečnosťPridajte pre- a post-procesing middleware na odstránenie PII, dodržiavanie bezpečnostných filtrov alebo moderovanie výstupov pred odoslaním klientovi. Kombinujte natívne moderovanie poskytovateľov (napr. OpenAI, Google) s vlastnými kontrolami v proxy. Príklad: vyžadujte validáciu JSON schémy a opakujte otázku, ak je neplatná.---## Monitorovanie a logovanie- Zapnite logovanie požiadaviek a odpovedí s redakciou údajov.- Exportujte metriky do Prometheus/Grafana alebo vášho APM.- Sledujte latenciu, tokeny a náklady podľa endpointu a používateľa.Tým sa „modelová ruleta“ premení na manažovanú službu s SLO a rozpočtami.---## Reálne modely použitia1) Odolnosť voči viacerým dodávateľom- Primárny: rýchly/lacný model; záloha: vysoko presný model pri chybe 429/5xx.- Výhody: lepšia dostupnosť, kontrola nákladov a stabilná kvalita.2) Aktualizácie modelov cez feature flagy- Použite váhy routovania na canary nasadenie nového modelu pre 5 % prevádzky; sledujte metriky; zväčšujte záber, keď je stabilné.3) Produktové úrovne- Bezplatná úroveň smerovaná na malé modely; Pro úroveň na prémiové modely.4) Registratúry a šablóny promptov- Centralizujte prompt-y v proxy, aby služby získavali zlepšenia bez znovunasadenia.5) Fakturácia a rozpočty tímu- Sledujte výdavky podľa API kľúča; nastavte mäkké a tvrdé limity pre tím alebo produkt.---## Kontrolný zoznam bezpečnosti a súladu- Ukladajte kľúče poskytovateľov v správcovi tajomstiev; odkazujte na ne cez premenné prostredia v konfigurácii.- Zapnite redakciu požiadaviek a čistenie PII v logoch.- Používajte API kľúče na službu pre proxy; pravidelne ich rotujte.- Nastavte organizačné limity a kvóty.- Pridajte povolené a zakázané zoznamy pre modely a endpointy.---## Riešenie problémov: Rýchle opravy- „Unauthorized“ cez proxy: Skontrolujte `auth.api_keys` a či klient používa správny `base_url` a kľúč.- Model nenájdený: Overte, či `model_list` obsahuje správny názov modelu, ktorý voláte.- Timeouty: Zvýšte `timeout` alebo presmerujte na región s nižšou latenciou.- Neštandardné výstupy: Zapnite JSON schému a validáciu; pridajte opakovania a zálohy.- Nárasty nákladov: Zapnite caching; presmerujte veľké objemy na lacnejšie modely; nastavte kvóty podľa kľúčov.Pre hlbšie štúdium a nové funkcie sú oficiálne dokumenty často aktualizované a stojí za to ich mať v záložkách. Tutoriály ako DataCamp sú výborné na praktické vzory a začiatočnícky crash kurz vo videu ukáže koncepty v akcii.---## Kompletný príklad referenčnej aplikácie (Python FastAPI)```python# app.pyfrom fastapi import FastAPIfrom pydantic import BaseModelfrom litellm import completionimport osclass ChatReq(BaseModel):question: strapp = FastAPI()@app.post("/ask")async def ask(req: ChatReq): resp = completion( model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"), messages=. ) return resp### Často kladené otázkyQ1: Čo je LiteLLM a prečo ho používať namiesto priameho SDK poskytovateľa?LiteLLM je OpenAI-kompatibilný gateway pre viac než 100 LLM, ktorý vám poskytuje jedno API a jeden mentálny model. Znižuje závislosť na dodávateľovi, zjednodušuje smerovanie a pridáva operačné funkcie ako caching, opakovania a sledovanie nákladov.Q2: Ako používať LiteLLM s OpenAI SDK?Smerujte base URL SDK na LiteLLM proxy a používajte svoj API kľúč proxy. Váš kód zostáva nezmenený, zatiaľ čo proxy môže zamieňať poskytovateľov alebo modely na pozadí.Q3: Môže LiteLLM streamovať odpovede a vracať JSON?Áno. Použite `stream=True` pre tokenové prúdy a `response_format` s JSON schémou pre štruktúrované výstupy naprieč poskytovateľmi.Q4: Ako kontrolovať náklady naprieč rôznymi poskytovateľmi LLM?Zapnite logovanie využitia a odhad nákladov, pridajte caching, nastavte limity a presmerujte veľké objemy na lacnejšie modely cez proxy. Sledujte to pomocou dashboardov pre rozpočty a SLO.
Ako zvládnuť ChatPDF: Rýchlejšie získavanie informácií z rozsiahlych dokumentov

Najlepšia alternatíva k X Auto-Translation pre rýchle a presné dokumenty

Samsung AI preklad nedostupný v Iráne? Praktické riešenia

Nástroje na preklad do perzštiny: praktický sprievodca pre rýchlejšiu a presnejšiu prácu

Najlepšia alternatíva k Grok pre hĺbkový a citovaný výskum

15 najlepších funkcií generátora obrázkov s umelou inteligenciou, ktoré budete skutočne používať