What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Como Usar LiteLLM: Um Guia Prático com Exemplos, Dicas Profissionais e Fluxos de Trabalho Reais

Se você já desejou que toda API de modelo funcionasse como a da OpenAI, vai adorar o LiteLLM. É um gateway leve que permite chamar mais de 100 LLMs com uma única interface compatível com OpenAI — localmente no código ou via um proxy central que pode ser compartilhado entre equipes. Neste tutorial, vamos abordar instalação, uso básico e avançado, streaming, loteamento, tentativas, cache, monitoramento de custos e como implantar o proxy LiteLLM com regras de segurança e roteamento. Também incluiremos exemplos em Python e JavaScript e padrões usados no mundo real.

Vale destacar: se você quer uma forma rápida de prototipar prompts, fazer perguntas a vários modelos e organizar resultados, Sider.AI pode ser um assistente útil para pesquisa e iteração enquanto você conecta sua pilha baseada em LiteLLM. Ele complementa seu fluxo de trabalho ajudando a comparar saídas e refinar os prompts antes de codificá-los.

Adotaremos um caminho prático e focado em soluções, para que você possa copiar, colar e entregar.

O que é o LiteLLM (e Por Que as Equipes o Usam)

Uma API para muitos modelos: chame Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock e mais usando funções no estilo OpenAI.

Duas formas de usar:

SDKs Cliente (Python/JS): uso rápido em scripts, servidores, notebooks.

Proxy (Gateway LLM): serviço centralizado para roteamento, autenticação, logs, controle de custos e observabilidade.

Compatibilidade plug-and-play: troque modelos sem reescrever seu app.

Funcionalidades operacionais: tentativas, timeouts, streaming, loteamento, cache, rastreamento e relatório de custos prontos para uso.

Se está começando, dê uma olhada rápida na documentação oficial de Introdução para um modelo mental rápido. Para exemplos práticos, o tutorial da DataCamp é um ótimo complemento passo a passo. Se preferir vídeo, há também um curso intensivo amigável para iniciantes.

Início Rápido: Instalação e Sua Primeira Chamada

Instalar

# Python
pip install litellm
# Node.js
npm install litellm

Variáveis de Ambiente

# Exemplo: usando OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Completação de Chat Mínima

from litellm import completion
resp = completion(
model="gpt-4o-mini", # ou "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.

Por padrão, ele expõe endpoints compatíveis com OpenAI como /v1/chat/completions. Aponte seu cliente OpenAI existente para ` e estará pronto.

Crie config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Execute com config:

litellm --config config.yaml --port 4000

Use o Proxy pelos SDKs da OpenAI (Sem Mudança no Código)

### Iniciando o Proxy

Como Usar o LiteLLM: Um Guia Prático com Exemplos, Dicas de Profissionais e Fluxos de Trabalho do Mundo Real