What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Как да използвате LiteLLM: Практическо ръководство с примери, професионални съвети и реални работни процеси

Ако някога сте искали всеки модел API да функционира като този на OpenAI, ще харесате LiteLLM. Това е лек шлюз, който ви позволява да използвате над 100 LLM модела чрез един интерфейс, съвместим с OpenAI – както локално в кода, така и чрез централен прокси, който можете да споделяте с екипа. В това ръководство ще преминем през инсталация, основна и разширена употреба, стрийминг, пакети, повторни опити, кеширане, проследяване на разходите и разгръщане на LiteLLM прокси с предпазни механизми и маршрутизация. Включваме примери на Python и JavaScript и реални използваеми модели.

Струва си да се отбележи: ако искате бърз начин да прототипирате заявки, да задавате въпроси на различни модели и да организирате резултатите, Sider.AI може да бъде полезен помощник за изследвания и итерации, докато изграждате своя стек, базиран на LiteLLM. Той допълва работния ви процес, като ви помага да сравнявате отговори и да усъвършенствате заявките, преди да ги кодифицирате.

Ще следваме практичен и ориентиран към решения подход, така че да можете да копирате, поставяте и внедрявате.

Какво е LiteLLM (и защо е предпочитан от екипите)

Един API за много модели: Използвайте Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock и други с OpenAI-подобни функции.

Два начина за използване:

Клиентски SDK (Python/JS): Бързо използване в скриптове, сървъри, тетрадки.

Прокси (LLM шлюз): Централизирана услуга за маршрутизиране, автентикация, логване, контрол на разходите и наблюдение.

Drop-in съвместимост: Смяна на модели без преписване на приложението.

Оперативни функции: Повторни опити, таймаути, стрийминг, пакети, кеширане, трасировка и отчитане на разходи от кутията.

Ако започвате, прегледайте официалните документи Getting Started за бързо разбиране. За практически примери, урокът на DataCamp е отличен помощник с постепенно кодиране. За видео формат има и курс за начинаещи.

Бърз старт: Инсталиране и първо извикване

Инсталиране

# Python
pip install litellm
# Node.js
npm install litellm

Променливи на средата

# Пример: използване на OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Минимално чат допълнение

from litellm import completion
resp = completion(
model="gpt-4o-mini", # или "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Стрийминг, Инструменти и JSON Режим
### Стрийминг на отговори
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Отчет за разходи и използвани токени
LiteLLM може да проследява употребата на токени и да изчислява разхода на заявка, модел или проект. С проксито можете да експортирате статистиките към логове, табла или биллингови системи. Това е безценно при смесване на доставчици с различни тарифи.
---
## LiteLLM Прокси (LLM Шлюз)
Ако сте екип или платформа, проксито е истинска сила: централизирана услуга с маршрутизиране, автентикация, лимити, логване и наблюдение. Работите с него чрез OpenAI API интерфейс, така че кодът ви почти не се променя.
### Стартиране на проксито
```bash
# най-простото локално изпълнение
litellm --port 4000

По подразбиране предлага OpenAI-съвместими краища като /v1/chat/completions. Насочете съществуващия си OpenAI клиент към ` и сте готови.

Конфигуриране на доставчици и ключове

Създайте config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Стартиране с конфигурация:

litellm --config config.yaml --port 4000

Използване на проксито с OpenAI SDK (без промени в кода)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Разширено маршрутизиране: латентност, цена или надеждност
Можете да реализирате маршрутизиращи стратегии като:
- Теглово кръгово разпределение за A/B тестове на модели
- Приоритет по най-ниска латентност според региона
- Маршрутизиране според цена за некритични крайни точки
- Задействане на резервен модел при грешки или повторни опити
С политика на маршрутизиране можете да кажете: „Предпочитам евтини, но при трудни заявки преминавам към премиум.“ Това осигурява висока наличност и предвидими бюджети.
---
## Предпазни механизми, Модерация и Сигурност
Добавяйте междинен софтуер за пред- и постобработка, който премахва PII, прилага филтри за безопасност или модерира отговорите преди връщане на клиента. Комбинирайте вградена модерация на доставчика (напр. OpenAI, Google) със собствена политика в проксито. Пример: изисквайте JSON схема за валидиране и повторно задаване при невалидни отговори.
---
## Наблюдение и Логване
- Активирайте логване на заявки и отговори с цензуриране.
- Експортирайте метрики към Prometheus/Grafana или вашия APM.
- Проследявайте латентност, токени и разходи по крайни точки и потребители.
Това превръща „рулетката на моделите“ в управляема услуга с SLO и бюджети.
---
## Реални модели на употреба
1) Устойчивост с множество доставчици
- Основен модел: бърз и евтин; резервен: високоточен при грешки 429/5xx.
- Ползи: по-добра наличност, контрол на разходите и стабилно качество.
2) Актуализации чрез feature флагове
- Контролирайте разпространение на нов модел до 5% от трафика; следете метриките; увеличавайте при стабилност.
3) Продуктови нива
- Безплатен план към малки модели; Pro към премиум модели.
4) Регистри и шаблони на заявки
- Централизирайте заявките в проксито, за да получавате подобрения без преинсталиране на услуги.
5) Отчетност и бюджети за екипи
- Следете разходи по API ключ; налагайте меки и твърди лимити за екип или продукт.
---
## Контролен списък за сигурност и съответствие
- Съхранявайте ключовете в мениджър на тайни; използвайте ги чрез променливи на средата в конфигурацията.
- Включете редация на заявки и премахване на PII в логовете.
- Използвайте API ключове на ниво услуга за проксито; въртете ги редовно.
- Задайте лимити и квоти за организацията.
- Добавете разрешителни и забранителни списъци за модели и крайни точки.
---
## Отстраняване на проблеми: Бързи решения
- „Unauthorized“ през проксито: Проверете `auth.api_keys` и че клиентът използва правилния `base_url` и ключ.
- Моделът не е намерен: Уверете се, че `model_list` съдържа посоченото име.
- Таймаути: Увеличете `timeout` или насочете към регион с по-ниска латентност.
- Странни отговори: Активирайте JSON схема и валидация; добавете повторни опити и резерви.
- Внезапни скокове в разходите: Включете кеширане; насочете голям трафик към по-евтини модели; задавайте квоти на ключ.
За по-задълбочено изучаване и последни функции, официалната документация се обновява често и си заслужава да бъде отметната. Уроците като този на DataCamp са чудесни за практическо усвояване, а видеокурсът за начинаещи помага да видите концепциите в действие.
---
## Обединяване: Примерна структура на приложение (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI()
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### ЧЗВ
В1: Какво е LiteLLM и защо да го използвам вместо директните SDK на доставчици?
LiteLLM е OpenAI-съвместим шлюз за над 100 LLM модела, с единен API и ментална моделна рамка. Намалява зависимостта от доставчици, опростява маршрутизацията и добавя операции като кеширане, повторни опити и проследяване на разходи.
В2: Как да използвам LiteLLM с OpenAI SDK?
Насочете базовия URL на SDK на LiteLLM проксито и използвайте API ключа на проксито. Кодът ви остава същият, като проксито сменя доставчици или модели прозрачно.
В3: Може ли LiteLLM да стриймва отговори и да връща JSON?
Да. Използвайте `stream=True` за получаване на токени в поток, и `response_format` с JSON схема за налагане на структурирани резултати при всички доставчици.
В4: Как да контролирам разходите при различни LLM доставчици?
Активирайте логване на употребата и оценка на разходи, добавете кеширане, задайте лимити и насочвайте голям трафик към по-евтини модели през проксито. Следете с табла за бюджети и SLO.
В5: Подходящ ли е LiteLLM за екипи в продукция?
Да. Проксито осигурява автентикация, лимити, маршрутизация, наблюдение и предпазни междинни слоеве. То е проектирано като LLM шлюз, централизиращ управлението, запазвайки OpenAI-съвместимост на приложенията.