What is LiteLLM and why use it?

LiteLLM is an open-source gateway and SDK that lets you call 100+ LLMs through a single, OpenAI-compatible API. Use it to switch providers easily, set fallbacks, and centralize rate limits and cost tracking.

How does LiteLLM compare to OpenRouter?

LiteLLM is self-hostable and open-source, giving you private control with your own provider keys, while OpenRouter is a hosted aggregator. Choose LiteLLM for compliance and control, OpenRouter for quick access to many models.

Can LiteLLM replace LangChain or LlamaIndex?

No. LiteLLM focuses on model abstraction and routing. Pair it with LangChain or LlamaIndex if you need agents, chains, or RAG pipelines while keeping provider flexibility.

Does LiteLLM support fallbacks and retries?

Yes. You can define fallback chains so if one provider fails or rate-limits, LiteLLM automatically tries the next model, improving reliability for production workloads.

Is LiteLLM free to use?

LiteLLM is open-source, so there’s no license cost, but you’ll pay for the underlying model usage. If you run the proxy, factor in operational costs for hosting and monitoring.

LiteLLM 评测：通过单一网关访问每个大语言模型的最简单方式

如果您曾硬切换应用从 OpenAI 到 Anthropic，再到 Google Gemini 或本地模型，并为了正确实现流式传输、重试和令牌处理而修补了一半代码，那么您已经明白为什么像 LiteLLM 这样的工具会存在。本评测直击要点：LiteLLM 实际表现好的地方、它的不足之处，以及它是否是您 2025 年 AI 技术栈的最佳抽象层。

我们将保持实用和解决方案导向——如何使用 LiteLLM、如何设置以及需要注意的事项。

什么是 LiteLLM？

LiteLLM 是一个开源网关和 SDK，允许您通过单一、兼容 OpenAI 的 API 调用 100 多个大语言模型。您可以切换提供商、添加故障转移，并统一日志记录和成本控制，而无需重写应用的推理层。将其视为大语言模型的通用适配器：一个接口，多种模型。

核心理念：“像调用 OpenAI API 一样调用每个模型。”

模式：作为 Python SDK 使用，或作为代理/网关服务器运行。

用例：多供应商支持、成本套利、通过故障转移提高可靠性、集中式可观测性。

行业覆盖明显突出了这种统一访问的角度。

LiteLLM 适合谁？

需要供应商灵活性但不想频繁重构代码的团队

正在尝试多种模型以找到质量/成本平衡点的初创公司

需要跨多个提供商添加护栏和治理的企业

希望获得原生 OpenAI SDK 调用的即插即用替代方案的开发者

如果您的应用永远只调用一个提供商且无需切换，LiteLLM 可能过于复杂。

关键特性

兼容 OpenAI 的接口：采用时只需极少的代码更改。

提供商覆盖：可访问 100 多个模型（包括 OpenAI、Anthropic、Google、Mistral、Cohere、OpenRouter、本地后端等）。

故障转移和重试：定义有序的故障转移链以提高弹性。

成本跟踪和速率限制：集中配额和预算。

路由：根据延迟、成本或策略选择模型。

流式传输 + 工具：跨提供商支持流式令牌和函数/工具调用。

代理模式：作为服务运行，以便任何客户端都可以访问单一端点。

InfoWorld 的概述强调了这些优势，特别是统一网关和故障转移。

设置：从零到首次调用

您可以将 LiteLLM 用作 Python 库或代理服务器。

选项 A：Python SDK（OpenAI 风格调用）

# pip install litellm
from litellm import completion
response = completion(
model="gpt-4o", # 或 "anthropic/claude-3.5-sonnet"、"google/gemini-1.5-pro" 等
messages=.
## LiteLLM 与 OpenRouter 对比
OpenRouter 将许多模型聚合在单一令牌后，提供简单的路由、公共速率限制和类似市场的感觉。相比之下，LiteLLM 是开源的，通常在您的基础设施中运行。
- 控制：LiteLLM 提供私有控制；OpenRouter 是托管聚合器。
- 成本透明度：使用 LiteLLM，您自带提供商密钥；使用 OpenRouter，您向 OpenRouter 付费，后者可能捆绑费用。
- 合规性：自托管 LiteLLM 可以简化数据驻留和合规性要求。
TrueFoundry 对 LiteLLM 与 OpenRouter 的分解突出了这些战略差异以及各自更适合的场景。
## LiteLLM 与 LangChain 和 LlamaIndex 对比
- LangChain：更广泛的编排框架（链、代理、工具、内存）。您可以在 LangChain 内部使用 LiteLLM 来抽象模型。
- LlamaIndex：数据导向的 RAG 框架。LiteLLM 可以作为底层的 LLM 层。
- 原生 SDK（OpenAI、Anthropic、Google）：最适合功能完整性和最新特性；最不适合多提供商切换。
如果您只需要模型互换性和清晰的治理，LiteLLM 是专业工具。如果您需要代理框架或复杂的 RAG 管道，可以将 LiteLLM 与 LangChain/LlamaIndex 配对使用。
## 性能和可靠性
- 延迟：与直接调用相比，开销极小，但路由/代理逻辑确实会带来少量额外开销。作为交换，您获得了故障转移和策略控制。
- 可靠性：集中式重试 + 提供商故障转移提高了生产应用的正常运行时间。
- 成本优化：为常规任务路由廉价模型；为关键路径保留高级模型。
提示：通过日志和追踪进行检测。许多团队将 LiteLLM 网关日志转发到他们的可观测性栈。
## 安全性和合规性考虑
- 密钥管理：安全存储提供商密钥；使用环境变量或保险库。
- 可审计性：中央代理记录查询、响应元数据和支出。
- 数据处理：自托管有助于数据驻留和隐私保证。
## 定价和许可
- LiteLLM 本身是开源的；您直接向提供商付费。这通常意味着较低的锁定、更清晰的成本以及切换的自由。
- 运营成本：如果运行代理，需要预算服务成本（容器、监控、值班）。
## 何时选择 LiteLLM
如果您满足以下条件，请选择 LiteLLM：
- 现在或将来需要支持多个提供商
- 希望集中速率限制、预算和可观测性
- 偏好跨所有模型的 OpenAI 风格易用性
- 需要故障转移以提高生产可靠性
如果满足以下条件，请考虑替代方案：
- 只调用单个提供商并需要尖端功能
- 需要深度、提供商特定的能力，且需在发布时立即获得
- 不想运营网关服务
## 有效的实现模式
1) 单一应用的简单抽象
- 使用 Python SDK
- 配置 1-2 个故障转移模型
- 将响应和成本记录到应用的遥测系统中
2) 组织范围的网关
- 在 Kubernetes 或 ECS 中运行代理
- 强制执行组织范围的速率限制和配额
- 按团队/项目标记请求以进行成本分摊
- 添加路由策略（例如，低成本默认值，生产路径使用高精度模型）
3) RAG + LiteLLM
- 使用 LlamaIndex/LangChain 进行检索逻辑
- 将 LiteLLM 插入作为模型层，以保持提供商灵活性
## 开发者体验：优点和粗糙之处
- 优点：从 OpenAI SDK 迁移极其简单，模型覆盖稳健，故障转移可靠。
- 粗糙之处：偶尔会出现提供商特定的怪癖；工具/函数调用的一致性可能不完美。关注发布说明并固定版本以提高稳定性。
开发者社区呼吁在快速发展的 LLM 库中加强工程严谨性；这是评估任何采用（包括 LiteLLM）时应保持的健康视角。
## 结论：LiteLLM 值得吗？
LiteLLM 是在无需为每个提供商重写代码的情况下构建多模型策略的最简单方式之一。如果您的路线图包括供应商灵活性、通过故障转移提高正常运行时间以及支出控制，LiteLLM 值得强烈推荐。如果您完全依赖单一供应商并需要在发布第一天就使用每个新功能，请选择原生方案。
顺便说一句，如果您想要一个友好的界面来并行实验提示和模型，像 [Sider.AI](https://sider.ai) 这样的工具可以加速您的工作流程，同时评估提供商——在锁定路由策略之前，用于提示试验和快速比较非常方便。
## 快速入门清单
- 安装 LiteLLM SDK 或代理
- 定义主要和故障转移模型
- 设置组织范围的速率限制和预算
- 集中日志和追踪
- 测试提供商特定功能（工具、图像、JSON 模式）
- 固定版本并记录您的模型矩阵
## 后续步骤
- 为每个提供商添加健康检查和断路器
- 构建 A/B 路由器，在生产中比较模型质量与成本
- 创建添加/移除提供商的迁移手册
### 常见问题解答
Q1：什么是 LiteLLM？为什么要使用它？
LiteLLM 是一个开源网关和 SDK，允许您通过单一、兼容 OpenAI 的 API 调用 100 多个大语言模型。使用它可以轻松切换提供商、设置故障转移，并集中速率限制和成本跟踪。
Q2：LiteLLM 与 OpenRouter 相比如何？
LiteLLM 可自托管且开源，让您使用自己的提供商密钥进行私有控制，而 OpenRouter 是托管聚合器。选择 LiteLLM 以实现合规性和控制，选择 OpenRouter 以快速访问许多模型。
Q3：LiteLLM 能替代 LangChain 或 LlamaIndex 吗？
不能。LiteLLM 专注于模型抽象和路由。如果您需要代理、链或 RAG 管道，同时保持提供商灵活性，可以将 LiteLLM 与 LangChain 或 LlamaIndex 配对使用。
Q4：LiteLLM 支持故障转移和重试吗？
是的。您可以定义故障转移链，这样如果一个提供商失败或速率限制，LiteLLM 会自动尝试下一个模型，从而提高生产工作负载的可靠性。
Q5：LiteLLM 免费使用吗？
LiteLLM 是开源的，因此没有许可成本，但您需要支付底层模型使用费。如果运行代理，需考虑托管和监控的运营成本。