Reseña de LiteLLM: La forma más sencilla de acceder a todos los LLM a través de una sola puerta de enlace
Si alguna vez has cambiado tu aplicación de OpenAI a Anthropic, a Google Gemini o a un modelo local —y has tenido que modificar gran parte de tu código solo para gestionar el streaming, los reintentos y los tokens correctamente— ya sabes por qué existen herramientas como LiteLLM. Esta reseña va directo al grano: qué hace bien LiteLLM, dónde tiene dificultades y si es la mejor abstracción para tu stack de IA en 2025.
Mantendremos un enfoque práctico y orientado a soluciones: para qué usar LiteLLM, cómo configurarlo y qué tener en cuenta.
¿Qué es LiteLLM?
LiteLLM es una puerta de enlace y un SDK de código abierto que te permite llamar a más de 100 LLM a través de una única API compatible con OpenAI. Puedes cambiar de proveedor, agregar opciones de reserva y unificar el registro y control de costos sin reescribir la capa de inferencia de tu aplicación. Piénsalo como un adaptador universal para LLMs: una interfaz, muchos modelos.
- Idea principal: "Llama a cada modelo como si fuera la API de OpenAI."
- Modos: úsalo como un SDK en Python o ejecútalo como un servidor proxy/puerta de enlace.
- Casos de uso: soporte multi-proveedor, arbitraje de costos, confiabilidad mediante reservas, observabilidad centralizada.
La cobertura industrial destaca claramente este ángulo de acceso unificado.
¿Para quién es LiteLLM?
- Equipos que necesitan flexibilidad de proveedor sin refactorizaciones constantes
- Startups que experimentan con muchos modelos para encontrar equilibrio entre calidad y costo
- Empresas que añaden controles y gobernanza en múltiples proveedores
- Desarrolladores que buscan un reemplazo directo para llamadas nativas al SDK de OpenAI
Si tu app llama a un solo proveedor para siempre y no necesita cambiar, LiteLLM podría ser excesivo.
Características clave que importan
- Interfaz compatible con OpenAI: cambios mínimos de código para adoptarlo.
- Cobertura de proveedores: acceso a más de 100 modelos (OpenAI, Anthropic, Google, Mistral, Cohere, OpenRouter, backend local y más).
- Reservas y reintentos: define cadenas de reserva ordenadas para mayor resiliencia.
- Seguimiento de costos y limitación de tasa: centraliza cuotas y presupuestos.
- Enrutamiento: selecciona modelos según latencia, costo o política.
- Streaming + herramientas: soporte para tokens en streaming y llamadas a funciones/herramientas entre proveedores.
- Modo proxy: ejecútalo como servicio para que cualquier cliente acceda a un único endpoint.
La reseña de InfoWorld enfatiza estas fortalezas, especialmente la puerta de enlace unificada y las reservas.
Configuración: de cero a la primera llamada
Puedes usar LiteLLM como biblioteca Python o como servidor proxy.
Opción A: SDK Python (llamadas al estilo OpenAI)
# pip install litellm
from litellm import completion
response = completion(
model="gpt-4o", # o "anthropic/claude-3.5-sonnet", "google/gemini-1.5-pro", etc.
messages=.