Aktualizováno 25. zář 2025
6 min
# Pythonpip install litellm# Node.jsnpm install litellm# Příklad: použití OpenAI + Anthropic + Mistralexport OPENAI_API_KEY=sk-...export ANTHROPIC_API_KEY=sk-ant-...export MISTRAL_API_KEY=sk-mis-...from litellm import completionresp = completion(model="gpt-4o-mini", # nebo "anthropic/claude-3-5-sonnet", "mistral/mistral-large"messages=.---## Streamování, nástroje a JSON režim### Streamování odpovědí```pythonfrom litellm import completionfor chunk in completion(model="gpt-4o-mini",messages=.### Náklady a používání tokenůLiteLLM dokáže sledovat využití tokenů a odhadovat náklady na požadavek, model nebo projekt. S proxy můžete exportovat využití do logů, dashboardů nebo fakturačních systémů. To je neocenitelné, když kombinujete více dodavatelů s rozdílnými cenami.---## LiteLLM Proxy (LLM Gateway)Jestli jste tým nebo platforma, proxy je opravdová síla: centrální služba se směrováním, autentizací, limity, logováním a sledovatelností. Komunikujete s ní přes OpenAI API, takže váš kód téměř neměníte.### Spuštění Proxy```bash# nejjednodušší lokální spuštěnílitellm --port 4000/v1/chat/completions. Nasměrujte svého stávajícího OpenAI klienta na ` a jste hotovi.config.yaml:model_list:- model_name: gpt-4o-minilitellm_params:model: openai/gpt-4o-miniapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}router:strategy: simple_weightedroutes:- model: gpt-4o-miniweight: 0.6- model: claude-3-5-sonnetweight: 0.4rate_limits:requests_per_minute: 120logging:level: infosink: stdoutauth:api_keys:- key: svc-app-123litellm --config config.yaml --port 4000from openai import OpenAIclient = OpenAI(base_url=" api_key="svc-app-123")resp = client.chat.completions.create(model="gpt-4o-mini",messages=.---## Pokročilé směrování: Latence, náklady nebo spolehlivostImplementujte strategie směrování jako:- Vážený round-robin pro A/B testování modelů- Nejnižší latence dle regionu- Cenově uvědomělé směrování pro nekritické endpointy- Náhradní mechanismy při chybách/opakování volání napříč provideryS router politikou lze říci „preferuj levné, ale při náročných dotazech přepni na prémiové.“ To zajišťuje vysokou dostupnost a předvídatelné rozpočty.---## Ochranná opatření, moderace a bezpečnostPřidejte middleware před a po zpracování k odstranění PII, prosazení bezpečnostních filtrů nebo moderaci výstupu před odesláním klientům. Kombinujte nativní moderaci poskytovatelů (např. OpenAI, Google) s vlastními pravidly v proxy. Například požadujte validaci JSON schématu a opětovnou otázku při neplatných datech.---## Sledovatelnost a logování- Aktivujte logování požadavků/odpovědí s redakcí citlivých dat.- Exportujte metriky do Prometheus/Grafana nebo do vašeho APM.- Sledujte latenci, počet tokenů a náklady dle endpointu a uživatele.Tím změníte „ruletu s modely“ na řízenou službu s SLO a rozpočty.---## Skutečné vzory použití1) Multi-vendor odolnost- Primární: rychlý/levný model; Záložní: vysoce přesný model při chybách 429/5xx.- Výhody: lepší dostupnost, kontrola nákladů a stabilní kvalita.2) Upgrady modelů pomocí feature flag- Pomocí router vah canary zavádíte nový model na 5 % provozu; sledujete metriky; při stabilitě navyšujete.3) Produktové úrovně- Free úroveň směrována na malé modely; Pro úroveň na prémiové modely.4) Repositáře a šablony promptů- Centralizujte prompty v proxy, aby služby mohly dědit vylepšení bez redeploye.5) Týmové účtování a rozpočty- Sledujte výdaje podle API klíče; nastavte jemné a tvrdé limity pro týmy či produkty.---## Bezpečnostní a soulady kontrolní seznam- Ukládejte klíče poskytovatelů ve svém manažeru tajemství; odkazujte je přes env vars v konfiguraci.- Zapněte redakci požadavků a čištění PII v logech.- Používejte unikátní API klíče pro proxy; pravidelně je obnovujte.- Nastavte organizační limity a kvóty.- Přidejte povolené a zakázané seznamy modelů a endpointů.---## Řešení problémů: Rychlé opravy- „Unauthorized“ přes proxy: Zkontrolujte `auth.api_keys` a že klient používá správný `base_url` a klíč.- Model nenalezen: Ujistěte se, že `model_list` obsahuje volané přátelské jméno modelu.- Timeouty: Zvýšte `timeout` nebo směrujte na region s nižší latencí.- Podivné výstupy: Zapněte JSON schemata a validaci; přidejte opakování a záložní varianty.- Výkyvy nákladů: Použijte kešování; směrujte hromadný provoz na levnější modely; nastavte kvóty dle klíče.Pro hlubší informace a nejnovější funkce se vyplatí sledovat oficiální dokumentaci, která je často aktualizovaná. Tutoriály jako DataCamp je skvělý způsob, jak se naučit praktické vzory, a video kurz pro začátečníky ukáže koncepty v akci.---## Kompletní příklad aplikace (Python FastAPI)```python# app.pyfrom fastapi import FastAPIfrom pydantic import BaseModelfrom litellm import completionimport osclass ChatReq(BaseModel):question: strapp = FastAPI()@app.post("/ask")async def ask(req: ChatReq): resp = completion( model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"), messages=. ) return resp### FAQOtázka 1: Co je LiteLLM a proč jej používat místo SDK přímo od poskytovatelů?LiteLLM je OpenAI-kompatibilní gateway pro více než 100 LLM, která poskytuje jedno API a jeden mentální model. Snižuje závislost na jednom dodavateli, zjednodušuje směrování a přidává operační funkce jako kešování, opakování a sledování nákladů.Otázka 2: Jak použít LiteLLM s OpenAI SDK?Nasměrujte základní URL SDK na LiteLLM proxy a používejte svůj proxy klíč. Váš kód zůstane stejný, zatímco proxy za scénou přepíná mezi providery či modely.Otázka 3: Umí LiteLLM streamovat odpovědi a vracet JSON?Ano. Použijte `stream=True` pro získání tokenových proudů a parametr `response_format` s JSON schématem pro kontrolu strukturovaných výstupů u různých poskytovatelů.Otázka 4: Jak kontrolovat náklady napříč různými LLM poskytovateli?Aktivujte logování využití a odhad nákladů, přidejte kešování, nastavte limity rychlosti a směrujte hromadný provoz na levnější modely přes proxy. Sledujte vše na dashboardech pro rozpočty a SLO.
Jak zvládnout ChatPDF: Rychlejší přehledy z rozsáhlých dokumentů

Nejlepší alternativa k X Auto-Translation pro rychlé a přesné dokumenty

Samsung AI překlad není v Íránu dostupný? Praktická řešení

Nástroje pro překlad do perštiny: praktický průvodce rychlejší a přesnější prací

Nejlepší alternativa k Grok pro hluboký, citovaný výzkum

15 nejlepších funkcí generátoru obrázků s umělou inteligencí, které skutečně využijete