What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Как использовать LiteLLM: Практическое руководство с примерами, профессиональными советами и реальными сценариями использования

Если вы когда-либо хотели, чтобы API каждой модели вели себя как API OpenAI, вам понравится LiteLLM. Это облегченный шлюз, который позволяет вызывать более 100 LLM с помощью единого интерфейса, совместимого с OpenAI — локально в коде или через центральный прокси, которым можно поделиться между командами. В этом руководстве мы рассмотрим установку, базовое и расширенное использование, потоковую передачу, пакетную обработку, повторные попытки, кэширование, отслеживание затрат и развертывание прокси-сервера LiteLLM с защитными ограждениями и маршрутизацией. Мы также включим примеры на Python и JavaScript, а также реальные шаблоны.

Стоит отметить: если вам нужен быстрый способ прототипирования запросов, задавать вопросы нескольким моделям и организовывать результаты, Sider.AI может стать полезным помощником для исследований и итераций, пока вы подключаете свой стек на основе LiteLLM. Он дополняет ваш рабочий процесс, помогая сравнивать результаты и уточнять запросы, прежде чем вы их кодифицируете.

Мы выберем практический и ориентированный на решения путь, чтобы вы могли копировать, вставлять и отправлять.

Что такое LiteLLM (и почему его используют команды)

Единый API для множества моделей: вызывайте Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock и другие, используя функции в стиле OpenAI.

Два способа использования:

Клиентские SDK (Python/JS): Быстрое использование в скриптах, серверах, блокнотах.

Прокси (LLM Gateway): Централизованный сервис для маршрутизации, аутентификации, ведения журналов, контроля затрат и наблюдаемости.

Drop-in совместимость: Заменяйте модели, не переписывая свое приложение.

Операционные функции: Повторные попытки, тайм-ауты, потоковая передача, пакетная обработка, кэширование, трассировка и отчетность о затратах из коробки.

Если вы только начинаете, просмотрите официальную документацию Getting Started для быстрого ознакомления с концепцией. Для практических примеров учебник DataCamp - отличный компаньон с пошаговым кодом. Если вы предпочитаете видео, есть также вводный экспресс-курс.

Быстрый старт: Установка и ваш первый вызов

Установка

# Python
pip install litellm
# Node.js
npm install litellm

Переменные окружения

# Пример: использование OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Минимальное завершение чата

from litellm import completion
resp = completion(
model="gpt-4o-mini", # или "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Потоковая передача, инструменты и режим JSON
### Потоковая передача ответов
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Использование стоимости и токенов
LiteLLM может отслеживать использование токенов и оценивать стоимость запроса, модели или проекта. С помощью прокси вы можете экспортировать использование в журналы, панели мониторинга или систему выставления счетов. Это бесценно, когда вы смешиваете поставщиков с разным ценообразованием.
---
## Прокси LiteLLM (LLM Gateway)
Если вы команда или платформа, прокси - это настоящая суперсила: центральный сервис с маршрутизацией, аутентификацией, ограничением скорости, ведением журналов и наблюдаемостью. Вы взаимодействуете с ним, используя интерфейс OpenAI API, поэтому код вашего приложения практически не меняется.
### Запуск прокси
```bash
# простейший локальный запуск
litellm --port 4000

По умолчанию он предоставляет конечные точки, совместимые с OpenAI, такие как /v1/chat/completions. Направьте свой существующий клиент OpenAI на ` и все готово.

Настройка провайдеров и ключей

Создайте config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Запуск с конфигурацией:

litellm --config config.yaml --port 4000

Использование прокси из OpenAI SDK (без изменений кода)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Расширенная маршрутизация: Задержка, стоимость или надежность
Вы можете реализовать стратегии маршрутизации, такие как:
- Взвешенная круговая маршрутизация для A/B моделей
- Сначала с наименьшей задержкой по региону
- Маршрутизация с учетом стоимости для некритичных конечных точек
- Fallback-on-error/retry между провайдерами
С политикой маршрутизатора вы можете сказать: «Предпочитайте дешевые, переходите на премиум для сложных запросов». Это обеспечивает высокую доступность и предсказуемые бюджеты.
---
## Guardrails, модерация и безопасность
Добавьте промежуточное программное обеспечение предварительной и постобработки для удаления PII, применения фильтров безопасности или модерации выходных данных перед возвратом клиентам. Объедините собственную модерацию провайдера (например, OpenAI, Google) с вашими собственными проверками политики в прокси. Пример: требуйте проверки схемы JSON и повторно запрашивайте при недействительности.
---
## Наблюдаемость и ведение журналов
- Включите ведение журнала запросов/ответов с редактированием.
- Экспортируйте метрики в Prometheus/Grafana или ваш APM.
- Отслеживайте задержку, токены и стоимость по конечной точке и пользователю.
Это превращает «модельную рулетку» в управляемый сервис с SLO и бюджетами.
---
## Реальные сценарии использования
1) Устойчивость к множественным поставщикам
- Primary: fast/cheap model; Fallback: high-accuracy model on 429/5xx.
- Преимущества: лучшее время безотказной работы, контроль затрат и стабильное качество.
2) Обновления модели feature flag
- Используйте веса маршрутизатора для canary новой модели для 5% трафика; отслеживайте метрики; увеличивайте, когда стабильно.
3) Уровни продукта
- Бесплатный уровень направляется на небольшие модели; Pro tier to premium models.
4) Реестры подсказок и шаблоны
- Централизуйте подсказки в прокси, чтобы службы наследовали улучшения без повторного развертывания.
5) Командный биллинг и бюджеты
- Отслеживайте расходы по ключу API; применяйте мягкие и жесткие лимиты для каждой команды или продукта.
---
## Контрольный список безопасности и соответствия требованиям
- Храните ключи провайдера в своем менеджере секретов; ссылайтесь через переменные окружения в config.
- Включите редактирование запросов и очистку PII в журналах.
- Используйте ключи API для каждой службы для прокси; регулярно меняйте их.
- Установите общеорганизационные ограничения скорости и квоты.
- Добавьте списки разрешений/запретов для моделей и конечных точек.
---
## Устранение неполадок: Быстрые исправления
- “Unauthorized” через прокси: Проверьте `auth.api_keys` и что ваш клиент использует `base_url` + правильный ключ.
- Модель не найдена: Убедитесь, что `model_list` содержит понятное имя, которое вы вызываете.
- Тайм-ауты: Увеличьте `timeout` или перенаправьте в регион провайдера с меньшей задержкой.
- Странные выходные данные: Включите схему JSON + проверку; добавьте повторные попытки и запасные варианты.
- Скачки стоимости: Включите кэширование; направляйте массовый трафик на более дешевые модели; установите квоты для каждого ключа.
Для более глубокого погружения и последних функций официальная документация часто обновляется и стоит добавить в закладки. Учебные пособия, такие как руководство DataCamp, отлично подходят для практических шаблонов, а видео вводного экспресс-курса может помочь вам увидеть концепции в действии.
---
## Объедините все вместе: Скелет эталонного приложения (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### FAQ
Q1: Что такое LiteLLM и почему его следует использовать вместо прямых SDK провайдера?
LiteLLM — это шлюз, совместимый с OpenAI, для 100+ LLM, предоставляющий вам один API и одну ментальную модель. Он снижает зависимость от поставщика, упрощает маршрутизацию и добавляет операционные функции, такие как кэширование, повторные попытки и отслеживание затрат.
Q2: Как использовать LiteLLM с OpenAI SDK?
Направьте базовый URL-адрес SDK на прокси-сервер LiteLLM и используйте свой ключ API прокси-сервера. Ваш код может оставаться прежним, пока прокси-сервер за кулисами меняет поставщиков или модели.
Q3: Может ли LiteLLM передавать ответы потоком и возвращать JSON?
Да. Используйте `stream=True`, чтобы получать потоки токенов, и `response_format` со схемой JSON, чтобы обеспечить структурированные выходные данные у разных поставщиков.
Q4: Как контролировать затраты между различными поставщиками LLM?
Включите ведение журнала использования и оценку стоимости, добавьте кэширование, установите ограничения скорости и направляйте массовый трафик на более дешевые модели через прокси. Отслеживайте с помощью панелей мониторинга для бюджетов и SLO.
Q5: Подходит ли LiteLLM для производственных команд?
Да. Прокси-сервер предоставляет аутентификацию, ограничения скорости, маршрутизацию, наблюдаемость и промежуточное программное обеспечение безопасности. Он разработан как LLM-шлюз, который централизует управление, сохраняя при этом совместимость вашего приложения с OpenAI.

Как использовать LiteLLM: практическое руководство с примерами, профессиональными советами и реальными сценариями работы