What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Jak korzystać z LiteLLM: Praktyczny przewodnik z przykładami, profesjonalnymi wskazówkami i rzeczywistymi przepływami pracy

Jeśli kiedykolwiek chciałeś, aby każde API modelu zachowywało się jak OpenAI, pokochasz LiteLLM. To lekka bramka, która pozwala wywoływać ponad 100 LLM za pomocą jednego interfejsu kompatybilnego z OpenAI – lokalnie w kodzie lub przez centralne proxy, które możesz udostępniać zespołom. W tym samouczku omówimy instalację, podstawowe i zaawansowane użycie, strumieniowanie, przetwarzanie wsadowe, ponawianie prób, buforowanie, śledzenie kosztów i wdrażanie proxy LiteLLM z zabezpieczeniami i routingiem. Dołączymy również przykłady w Pythonie i JavaScript oraz rzeczywiste wzorce.

Warto zauważyć: jeśli potrzebujesz szybkiego sposobu na prototypowanie promptów, zadawanie pytań różnym modelom i organizowanie wyników, Sider.AI może być pomocnym wsparciem w badaniach i iteracji podczas tworzenia stosu opartego na LiteLLM. Uzupełnia Twój workflow, pomagając porównywać wyniki i udoskonalać prompty przed ich zakodowaniem.

Obierzemy praktyczną ścieżkę zorientowaną na rozwiązania, abyś mógł kopiować i wdrażać.

Czym jest LiteLLM (i dlaczego używają go zespoły)

Jedno API dla wielu modeli: Wywołuj Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock i inne, używając funkcji w stylu OpenAI.

Dwa sposoby użycia:

SDK klienta (Python/JS): Szybkie użycie w skryptach, serwerach, notebookach.

Proxy (bramka LLM): Scentralizowana usługa do routingu, uwierzytelniania, logowania, kontroli kosztów i obserwacji.

Kompatybilność typu „drop-in”: Zmieniaj modele bez przepisywania aplikacji.

Funkcje operacyjne: Ponawianie prób, limity czasu, strumieniowanie, przetwarzanie wsadowe, buforowanie, śledzenie i raportowanie kosztów od razu po wyjęciu z pudełka.

Jeśli dopiero zaczynasz, przejrzyj oficjalną dokumentację Wprowadzenie, aby szybko stworzyć model mentalny. Dla przykładów praktycznych, samouczek DataCamp jest solidnym towarzyszem z kodem krok po kroku. Jeśli wolisz wideo, dostępny jest również kurs wprowadzający dla początkujących.

Szybki start: Instalacja i pierwsze wywołanie

Instalacja

# Python
pip install litellm
# Node.js
npm install litellm

Zmienne środowiskowe

# Przykład: użycie OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Minimalne uzupełnianie czatu

from litellm import completion
resp = completion(
model="gpt-4o-mini", # lub "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Strumieniowanie, narzędzia i tryb JSON
### Strumieniowanie odpowiedzi
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Koszt i wykorzystanie tokenów
LiteLLM może śledzić wykorzystanie tokenów i szacować koszt na żądanie, model lub projekt. Dzięki proxy możesz eksportować użycie do logów, paneli kontrolnych lub zbiorczego rozliczenia. Jest to nieocenione, gdy mieszasz dostawców z różnymi cenami.
---
## Proxy LiteLLM (bramka LLM)
Jeśli jesteś zespołem lub platformą, proxy jest prawdziwą supermocą: centralną usługą z routingiem, uwierzytelnianiem, limitami szybkości, logowaniem i obserwacją. Wchodzisz z nim w interakcję za pomocą interfejsu OpenAI API, więc kod Twojej aplikacji prawie się nie zmienia.
### Uruchom proxy
```bash
# najprostsze lokalne uruchomienie
litellm --port 4000

Domyślnie udostępnia punkty końcowe kompatybilne z OpenAI, takie jak /v1/chat/completions. Skieruj swojego istniejącego klienta OpenAI na ` i gotowe.

Konfiguracja dostawców i kluczy

Utwórz config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Uruchom z konfiguracją:

litellm --config config.yaml --port 4000

Używaj proxy z OpenAI SDK (bez zmian w kodzie)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Zaawansowany routing: latencja, koszt lub niezawodność
Możesz wdrożyć strategie routingu, takie jak:
- Ważony round-robin do A/B modeli
- Najniższa latencja najpierw według regionu
- Routing uwzględniający koszty dla niekrytycznych punktów końcowych
- Awaryjne przełączanie/ponawianie prób u różnych dostawców
Dzięki polityce routera możesz powiedzieć „preferuj tanie, w razie potrzeby przełączaj się na premium dla trudnych promptów”. Zapewnia to wysoką dostępność i przewidywalne budżety.
---
## Zabezpieczenia, moderacja i bezpieczeństwo
Dodaj oprogramowanie pośredniczące do wstępnego i końcowego przetwarzania, aby usunąć dane osobowe, wymusić filtry bezpieczeństwa lub moderować dane wyjściowe przed powrotem do klientów. Połącz natywną moderację dostawcy (np. OpenAI, Google) z własnymi kontrolami zasad w proxy. Przykład: wymagaj walidacji schematu JSON i ponów pytanie, gdy jest nieprawidłowy.
---
## Obserwowalność i logowanie
- Włącz logowanie żądań/odpowiedzi z redakcją.
- Eksportuj metryki do Prometheus/Grafana lub swojego APM.
- Śledź latencję, tokeny i koszt według punktu końcowego i użytkownika.
To zamienia „ruletkę modeli” w zarządzaną usługę z SLO i budżetami.
---
## Rzeczywiste wzorce użytkowania
1) Odporność na wielu dostawców
- Podstawowy: szybki/tani model; Awaryjny: model o wysokiej dokładności w przypadku 429/5xx.
- Korzyści: lepszy czas działania, kontrola kosztów i stabilna jakość.
2) Ulepszenia modelu flagi funkcji
- Użyj wag routera, aby wprowadzić nowy model do 5% ruchu; monitoruj metryki; zwiększaj, gdy jest stabilny.
3) Poziomy produktu
- Bezpłatny poziom kierowany do małych modeli; Poziom Pro do modeli premium.
4) Rejestry i szablony promptów
- Scentralizuj prompty w proxy, aby usługi dziedziczyły ulepszenia bez ponownego wdrażania.
5) Rozliczenia i budżety zespołowe
- Śledź wydatki według klucza API; egzekwuj miękkie i twarde limity na zespół lub produkt.
---
## Lista kontrolna bezpieczeństwa i zgodności
- Przechowuj klucze dostawcy w swoim menedżerze haseł; odwołuj się za pomocą zmiennych środowiskowych w konfiguracji.
- Włącz redakcję żądań i usuwanie danych osobowych w logach.
- Używaj kluczy API dla poszczególnych usług dla proxy; regularnie je zmieniaj.
- Ustaw limity szybkości i limity dla całej organizacji.
- Dodaj listy dozwolonych/zabronionych dla modeli i punktów końcowych.
---
## Rozwiązywanie problemów: Szybkie poprawki
- „Nieautoryzowany” przez proxy: Sprawdź `auth.api_keys` i czy Twój klient używa `base_url` + poprawnego klucza.
- Nie znaleziono modelu: Upewnij się, że `model_list` zawiera przyjazną nazwę, której używasz.
- Limity czasu: Zwiększ `timeout` lub skieruj do regionu dostawcy o niższej latencji.
- Dziwne dane wyjściowe: Włącz schemat JSON + walidację; dodaj ponawianie prób i awaryjne przełączanie.
- Skoki kosztów: Włącz buforowanie; kieruj ruch zbiorczy do tańszych modeli; ustaw limity na klucz.
Aby uzyskać bardziej szczegółowe informacje i najnowsze funkcje, oficjalna dokumentacja jest często aktualizowana i warto dodać ją do zakładek. Samouczki, takie jak przewodnik DataCamp, są świetne do praktycznych wzorców, a film z kursem wprowadzającym dla początkujących może pomóc zobaczyć koncepcje w akcji.
---
## Połącz to wszystko razem: Szkielet aplikacji referencyjnej (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### FAQ
P1: Czym jest LiteLLM i dlaczego warto go używać zamiast bezpośrednich SDK dostawców?
LiteLLM to brama kompatybilna z OpenAI dla ponad 100 LLM, dająca jedno API i jeden model mentalny. Zmniejsza zależność od dostawcy, upraszcza routing i dodaje funkcje operacyjne, takie jak buforowanie, ponawianie prób i śledzenie kosztów.
P2: Jak używać LiteLLM z OpenAI SDK?
Skieruj adres URL podstawowy SDK do proxy LiteLLM i użyj klucza API proxy. Twój kod może pozostać taki sam, podczas gdy proxy zmienia dostawców lub modele w tle.
P3: Czy LiteLLM może przesyłać strumieniowo odpowiedzi i zwracać JSON?
Tak. Użyj `stream=True`, aby uzyskać strumienie tokenów, i `response_format` ze schematem JSON, aby wymusić ustrukturyzowane dane wyjściowe u różnych dostawców.
P4: Jak kontrolować koszty u różnych dostawców LLM?
Włącz logowanie użycia i szacowanie kosztów, dodaj buforowanie, ustaw limity szybkości i kieruj ruch zbiorczy do tańszych modeli za pośrednictwem proxy. Monitoruj za pomocą paneli kontrolnych dla budżetów i SLO.
P5: Czy LiteLLM nadaje się dla zespołów produkcyjnych?
Tak. Proxy zapewnia uwierzytelnianie, limity szybkości, routing, obserwowalność i oprogramowanie pośredniczące bezpieczeństwa. Został zaprojektowany jako brama LLM, która centralizuje zarządzanie, zachowując kompatybilność aplikacji z OpenAI.

Jak korzystać z LiteLLM: Praktyczny przewodnik z przykładami, poradami i rzeczywistymi przepływami pracy