更新於 2025年9月25日
7 分鐘
/v1/chat/completions 端點。pip install litellmexport OPENAI_API_KEY=sk-...# 選填:加入更多供應商export ANTHROPIC_API_KEY=...export GOOGLE_API_KEY=...from litellm import completionresp = completion(model="gpt-4o", # 或 "azure/gpt-4o", "anthropic/claude-3-5-sonnet", "gemini/gemini-1.5-pro"messages=.- 執行上方快速入門程式碼。- 目標:透過 LiteLLM 發出第一個 OpenAI 兼容請求。- 實作者- 閱讀 DataCamp 教學,延伸使用串流與重試功能。- 加入兩個供應商並測試備援。- 團隊/生產負責人- 研讀官方入門指南。- 部署代理,加入可觀測性與成本追蹤。- 實施速率限制與個資脫敏策略。—## 深入解析:你每週會用到的模式### OpenAI 兼容做為介面合約- 將 OpenAI API 的形態視為你的應用合約。所有請求都送至 LiteLLM 代理的 `/v1/*` 端點。- 透過設定切換模型(例如 `gpt-4o` → `claude-3-5`),而非改寫程式碼。### 按使用場景進行模型路由- 對延遲敏感的流程路由到快速且便宜的模型。- 推理流程則路由質量較高、適合檢索增強生成(RAG)或工具使用的模型。- 隱私需求路由到本地或 Ollama 處理含個資的段落。### 成本護欄- 請求附加 `user_id`/`team` 標籤。- 每團隊/模型設定預算。- 紀錄 token 使用量於中央儲存,並在異常時警告。### 彈性設計- 啟用帶抖動的重試機制。- 針對供應商設定逾時與斷路器,處理重複失敗。- 定義供應商優先順序及明確備援。### 可觀測性- 擷取請求/回應元資料、延遲直方圖及模型版本。- 日誌中脫敏秘密或個人識別資訊 (PII)。- 追蹤跨服務的呼叫流程,快速定位延遲。—## LiteLLM 代理範例設定(生產就緒起點)```yaml# config.yamlmodel_list:- model_name: gpt-4o litellm_params: model: openai/gpt-4o api_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnet litellm_params: model: anthropic/claude-3-5-sonnet api_key: ${ANTHROPIC_API_KEY}- model_name: gemini-1.5-pro litellm_params: model: google/gemini-1.5-pro api_key: ${GOOGLE_API_KEY}defaults: timeout: 30s max_tokens: 1024routing:- name: low-latency models: .- 一篇實務且舉例豐富的文章。- 官方 LiteLLM 文件的入門與代理最佳實踐。—## 行動計劃:未來 7 天的安排第 1–2 天:完成快速課程與快速入門;發出第一個代理請求。第 3–4 天:加入第二供應商與串流功能;設定逾時、重試。第 5 天:部署代理並載入設定;依使用場景路由(延遲 vs 推理)。第 6 天:增加日誌、成本追蹤與脫敏功能。第 7 天:負載測試;模擬供應商故障;驗證備援。—## 重點整理- LiteLLM 是最快讓多供應商 LLM 應用擺脫供應商綁定的路徑。- 先從 OpenAI 兼容介面開始,再進階到代理做治理。- 建議早期投入路由、彈性與可觀測性,這些你第二週就會用到,而非六個月後。- 上述教學涵蓋你日常使用 80% 的範圍,剩下的就是你產品的獨家秘訣。### 常見問題(FAQ)Q1: 初學者適合哪個 LiteLLM 教學?建議先看 YouTube 上的 LiteLLM Crash Course,快速視覺導覽,再閱覽官方代理入門指南。DataCamp 教學則提供可複製的實務範例。Q2: 如何以 LiteLLM 當作 OpenAI 兼容代理?運行 LiteLLM 代理,將 SDK 的基底 URL 指向代理的 `/v1` 端點。將供應商細節放在 LiteLLM 設定,讓應用程式碼可攜。Q3: LiteLLM 可以自動在 OpenAI、Anthropic 和 Gemini 間路由嗎?可以。只要在 LiteLLM 設定中定義模型及路由策略,即可依延遲、成本或品質切換供應商,也可設定備援以提升可靠度。Q4: 如何啟用 LiteLLM 的串流與工具/函式呼叫?透過 LiteLLM 的 OpenAI 兼容 API 並啟用`stream=True`(或 SDK 中的 SSE)。工具呼叫遵循 OpenAI 的函式呼叫格式,LiteLLM 將其轉發至目標供應商。Q5: LiteLLM 控制成本最快的方法是什麼?透過代理集中請求,啟用用量日誌,強制每金鑰速率限制與預算控管。針對不同工作負載路由至成本優化模型,並鎖定版本避免突發狀況。