Sider.ai
  • 聊天
  • Wisebase
  • 工具
  • 浏览器插件
  • 客户端
  • 价格
立即下载
登录

通过Sider更快学习、更深入思考、更聪明成长。

产品
应用
  • 扩展程序
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
工具
  • 网站生成器New
  • AI PPTNew
  • 写作大师
  • Nano Banana Pro
  • Nano Banana Infographic
  • 图片生成
  • 意大利脑洞
  • 背景移除
  • 背景替换
  • 区域抹除
  • 文字移除
  • 局部重绘
  • 画质提升
  • 创作者
  • 文本翻译
  • 图片翻译
  • PDF翻译
Sider
  • 联系我们
  • 帮助中心
  • 下载
  • 价格
  • 教育优惠
  • 新功能
  • 博客
  • 社区
  • 合作伙伴
  • 联盟
  • 邀请
©2026 版权所有
使用条款
隐私政策
  • 首页
  • 博客
  • AI 工具
  • LiteLLM 使用指南:实用案例、专业技巧与真实工作流

LiteLLM 使用指南:实用案例、专业技巧与真实工作流

更新于 2025年9月25日

6 分钟


如何使用 LiteLLM:带示例、专业技巧及真实工作流的实用指南

如果你曾希望所有模型 API 都能像 OpenAI 那样易用,那么你一定会喜欢 LiteLLM。它是一个轻量级网关,支持通过一个兼容 OpenAI 的接口调用 100 多种大语言模型——无论是在本地代码中,还是通过可跨团队共享的集中代理。在本教程中,我们将介绍安装、基础与高级使用、流式响应、批处理、重试、缓存、成本跟踪以及如何部署带有安全防护与路由功能的 LiteLLM 代理。还会附带 Python 和 JavaScript 示例以及实际应用模式。
值得一提的是:如果你希望快速原型化提示,跨多个模型提问并整理结果,Sider.AI 是你在构建基于 LiteLLM 堆栈时的得力助手。它能辅助你比较输出、优化提示,再将其固化为代码,完美补充你的工作流程。
我们将采取实用且以解决方案为导向的路线,方便你复制粘贴并快速上线。

什么是 LiteLLM(以及团队为何使用它)

  • 一个 API,接入多模型:你可以调用 Anthropic、OpenAI、Google、Azure、Cohere、Mistral、Bedrock 等,均支持 OpenAI 风格的函数接口。
  • 两种使用方式:
  • 客户端 SDK(Python/JS):快速在脚本、服务器、笔记本中使用。
  • 代理(LLM 网关):集中式服务,支持路由、认证、日志、费用控制及可观测性。
  • 即插即用兼容性:无需重写应用即可切换模型。
  • 运营功能:开箱即用的重试、超时、流式传输、批处理、缓存、追踪和成本报告。
如果你刚入门,可以先快速浏览官方“入门指南”文档构建心智模型。实操示例方面,DataCamp 教程提供循序渐进的代码演示。喜欢视频的话,初学者速成课也非常友好。

快速开始:安装及首次调用

安装

# Python
pip install litellm
# Node.js
npm install litellm

环境变量

# 示例:使用 OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python:最简聊天补全示例

from litellm import completion
resp = completion(
model="gpt-4o-mini", # 或 "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## 流式传输、工具及 JSON 模式
### 流式响应
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### 成本与令牌使用情况
LiteLLM 能追踪令牌使用量并估算每次请求、每个模型或项目的成本。代理还能将使用情况导出到日志、仪表盘或费用接收端。当你混合使用不同付费标准的供应商时,这一点尤为重要。
---
## LiteLLM 代理(LLM 网关)
如果你是团队或平台用户,代理无疑是超级利器:它是一个集中式服务,支持路由、认证、限流、日志和可观测性。你可以通过 OpenAI API 接口与它交互,使得应用代码几乎不用改动。
### 启动代理
```bash
# 最简洁的本地运行
litellm --port 4000
默认情况下,它会暴露如 /v1/chat/completions 之类的 OpenAI 兼容端点。将你现有的 OpenAI 客户端指向它即可开箱即用。

配置供应商及密钥

创建 config.yaml 文件:
model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123
使用配置启动:
litellm --config config.yaml --port 4000

用 OpenAI SDK 调用代理(无需改代码)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## 高级路由:延迟、成本或可靠性
你可以实现如下路由策略:
- 加权轮询实现模型 A/B 测试
- 按地域优先低延迟选择
- 针对非关键端点的成本感知路由
- 错误回退及跨供应商重试
通过路由策略,你可以设定“优先廉价模型,复杂提示时回退到高端模型”。从而实现高可用和可预测预算。
---
## 安全防护、审查与合规
添加前后处理中间件,去除个人身份信息、执行安全过滤或审查输出,然后再返回给客户端。代理可以结合供应商自带的审查功能(如 OpenAI、Google)和你自定义的策略检查。示例:要求 JSON schema 校验,校验不通过时重新提问。
---
## 可观测性与日志管理
- 支持带脱敏功能的请求/响应日志。
- 能导出指标至 Prometheus/Grafana 或你的 APM。
- 可追踪每个端点及用户的延迟、令牌和成本。
借助此功能,原本的“模型轮盘”变成了具备服务等级目标和预算管理的托管服务。
---
## 真实使用案例
1)多供应商容灾
- 主用:快速或低价模型;回退:429/5xx 出错时切换高精度模型。
- 好处:提升上线率,控制成本,确保质量稳定。
2)功能开关式模型升级
- 利用路由权重,将新模型先投放 5% 流量,监控指标稳定后逐步放量。
3)产品分层
- 免费层路由小型模型,专业层路由高端模型。
4)提示注册与模板管理
- 在代理集中管理提示,服务间共享改进,无需频繁部署。
5)团队计费与预算管理
- 按 API Key 追踪花费;对团队或产品实行软硬预算限制。
---
## 安全与合规清单
- 将供应商密钥存储在你的秘密管理器,通过环境变量在配置中引用。
- 启用请求脱敏与 PII 清理日志。
- 代理使用独立服务 API 密钥,并定期轮换。
- 设定全组织范围的速率限制和配额。
- 对模型和端点配置允许列表与拒绝列表。
---
## 故障排查:快速修复方案
- 代理返回“Unauthorized”:检查 `auth.api_keys` 设置及客户端是否使用正确的 `base_url` 和密钥。
- 找不到模型:确保 `model_list` 中有你调用的友好名称。
- 超时:增加 `timeout`,或切换到延迟更低的供应商区域。
- 输出异常:启用 JSON schema 校验,增加重试与回退机制。
- 成本激增:开启缓存,将大流量路由至廉价模型,设定单 key 配额。
如需深入学习及获取最新特性,官方文档常更新,非常值得收藏。DataCamp 的教程适合实战演练,初学者速成课视频能帮助你直观理解概念。
---
## 综合示例:参考应用骨架(Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI()
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
)
### 常见问答
Q1:什么是 LiteLLM,为什么用它替代直连供应商 SDK?
LiteLLM 是兼容 OpenAI 接口的多模型网关,提供统一 API 和心智模型。它减少供应商锁定,简化路由并增加诸如缓存、重试和成本跟踪的运营功能。
Q2:如何用 OpenAI SDK 使用 LiteLLM?
将 SDK 的 base_url 指向 LiteLLM 代理,使用代理 API Key。代码无需变更,代理会在后台替换供应商或模型。
Q3:LiteLLM 支持流式响应和返回 JSON 吗?
支持。设置 `stream=True` 可获得令牌流,使用 JSON schema 的 `response_format` 可实现跨供应商结构化输出。
Q4:如何控制不同 LLM 供应商的成本?
开启使用日志和成本估算,使用缓存,设置速率限制,通过代理路由大量请求到成本较低模型。通过仪表盘监控预算和服务目标。
Q5:LiteLLM 适合生产团队使用吗?

最近文章
如何掌握 ChatPDF:快速洞察密集文档

如何掌握 ChatPDF:快速洞察密集文档

快速、精准文档的最佳X自动翻译替代方案

快速、精准文档的最佳X自动翻译替代方案

三星AI翻译在伊朗无法使用?实用解决方法

三星AI翻译在伊朗无法使用?实用解决方法

波斯语翻译工具:实现更快更准确工作的实用指南

波斯语翻译工具:实现更快更准确工作的实用指南

深度、有引用研究的最佳Grok替代方案

深度、有引用研究的最佳Grok替代方案

你真正会用的AI图像生成器15大功能

你真正会用的AI图像生成器15大功能