What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

نحوه استفاده از LiteLLM: راهنمای عملی با مثال‌ها، نکات حرفه‌ای و گردش‌کارهای واقعی

اگر همیشه آرزو داشته‌اید که هر API مدل مانند API شرکت OpenAI عمل کند، پس عاشق LiteLLM خواهید شد. این یک درگاه سبک است که به شما امکان می‌دهد با یک رابط سازگار با OpenAI، بیش از ۱۰۰ مدل LLM را فراخوانی کنید—به صورت محلی در کد یا از طریق یک پروکسی مرکزی که می‌توانید در سراسر تیم‌ها به اشتراک بگذارید. در این آموزش، نصب، استفاده‌های اساسی و پیشرفته، استریمینگ، دسته‌بندی، تلاش‌های مجدد، کش، ردیابی هزینه و استقرار پروکسی LiteLLM با محافظ‌ها و مسیریابی را بررسی خواهیم کرد. همچنین نمونه‌های پایتون و جاوا اسکریپت و الگوهای دنیای واقعی را نیز شامل خواهیم کرد.

شایان ذکر است: اگر روشی سریع برای نمونه‌سازی اعلان‌ها، پرسیدن سؤالات در بین چندین مدل و سازماندهی نتایج می‌خواهید، Sider.AI می‌تواند یک کمک‌کننده مفید برای تحقیق و تکرار باشد تا زمانی که پشته مبتنی بر LiteLLM خود را سیم‌کشی کنید. این ابزار با کمک به شما در مقایسه خروجی‌ها و اصلاح اعلان‌ها قبل از کدگذاری، گردش کار شما را تکمیل می‌کند.

ما یک مسیر عملی و راه‌حل‌محور را طی خواهیم کرد، بنابراین می‌توانید کپی-پیست کرده و ارسال کنید.

LiteLLM چیست (و چرا تیم‌ها از آن استفاده می‌کنند)

یک API برای بسیاری از مدل‌ها: با استفاده از عملکردهای به سبک OpenAI، مدل‌های Anthropic، OpenAI، Google، Azure، Cohere، Mistral، Bedrock و غیره را فراخوانی کنید.

دو روش برای استفاده از آن:

SDKهای کلاینت (Python/JS): استفاده سریع در اسکریپت‌ها، سرورها، نوت‌بوک‌ها.

پروکسی (دروازه LLM): سرویس متمرکز برای مسیریابی، احراز هویت، ثبت گزارش، کنترل هزینه‌ها و قابلیت مشاهده.

سازگاری سریع: مدل‌ها را بدون بازنویسی برنامه خود جابه‌جا کنید.

ویژگی‌های عملیاتی: تلاش‌های مجدد، تایم‌اوت‌ها، استریمینگ، دسته‌بندی، کش، ردیابی و گزارش‌دهی هزینه به صورت پیش‌فرض.

اگر تازه شروع کرده‌اید، برای یک مدل ذهنی سریع، اسناد رسمی را مرور کنید. برای مثال‌های عملی، آموزش یک همراه قوی با کد گام به گام است. اگر ویدیو را ترجیح می‌دهید، یک دوره فشرده مناسب برای مبتدیان نیز وجود دارد.

شروع سریع: نصب و اولین فراخوانی شما

نصب

# پایتون
pip install litellm
# نود.جی‌اس
npm install litellm

متغیرهای محیطی

# مثال: استفاده از OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

پایتون: تکمیل چت حداقلی

from litellm import completion
resp = completion(
model="gpt-4o-mini", # or "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## استریمینگ، ابزارها و حالت JSON
### پاسخ‌های استریمینگ
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### هزینه و میزان استفاده از توکن
LiteLLM می‌تواند میزان استفاده از توکن را ردیابی کرده و هزینه هر درخواست، مدل یا پروژه را تخمین بزند. با استفاده از پروکسی، می‌توانید میزان استفاده را به گزارش‌ها، داشبوردها یا یک محل تخلیه صورت‌حساب صادر کنید. این ویژگی هنگام ترکیب فروشندگان با قیمت‌گذاری متفاوت بسیار ارزشمند است.
---
## پروکسی LiteLLM (دروازه LLM)
اگر یک تیم یا پلتفرم هستید، پروکسی قدرت واقعی است: یک سرویس مرکزی با مسیریابی، احراز هویت، محدودیت نرخ، ثبت گزارش و قابلیت مشاهده. شما با استفاده از سطح API OpenAI با آن تعامل می‌کنید، بنابراین کد برنامه شما به سختی تغییر می‌کند.
### شروع پروکسی
```bash
# ساده‌ترین اجرای محلی
litellm --port 4000

به طور پیش‌فرض، نقاط پایانی سازگار با OpenAI مانند /v1/chat/completions را در معرض دید قرار می‌دهد. کلاینت OpenAI موجود خود را به `{your_proxy_url}` اشاره دهید و کارتان تمام است.

پیکربندی ارائه‌دهندگان و کلیدها

ایجاد config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

اجرا با پیکربندی:

litellm --config config.yaml --port 4000

استفاده از پروکسی از SDKهای OpenAI (بدون تغییر کد)

from openai import OpenAI
client = OpenAI(base_url="{your_proxy_url}", api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## مسیریابی پیشرفته: تأخیر، هزینه یا قابلیت اطمینان
می‌توانید استراتژی‌های مسیریابی مانند:
- دوره‌ای وزنی برای مدل‌های A/B
- کمترین تأخیر ابتدا بر اساس منطقه
- مسیریابی آگاه از هزینه برای نقاط پایانی غیر بحرانی
- بازگشت به خطا/تلاش مجدد در سراسر ارائه‌دهندگان
با یک سیاست روتر، می‌توانید بگویید «ارزان را ترجیح بده، برای اعلان‌های سخت به مدل‌های پریمیوم بازگرد». این امر در دسترس بودن بالا و بودجه‌های قابل پیش‌بینی را ارائه می‌دهد.
---
## محافظ‌ها، تعدیل و ایمنی
میان‌افزارهای پیش و پس‌پردازش را برای حذف PII، اعمال فیلترهای ایمنی یا تعدیل خروجی‌ها قبل از بازگرداندن به مشتریان اضافه کنید. تعدیل بومی ارائه‌دهنده (به عنوان مثال، OpenAI، Google) را با بررسی‌های سیاست خود در پروکسی ترکیب کنید. مثال: نیاز به اعتبارسنجی طرحواره JSON و درخواست مجدد در صورت نامعتبر بودن.
---
## قابلیت مشاهده و ثبت گزارش
- فعال کردن ثبت گزارش درخواست/پاسخ با ویرایش.
- صادر کردن متریک‌ها به Prometheus/Grafana یا APM خود.
- ردیابی تأخیر، توکن‌ها و هزینه بر اساس نقطه پایانی و کاربر.
این امر «رولت مدل» را به یک سرویس مدیریت‌شده با SLOها و بودجه‌ها تبدیل می‌کند.
---
## الگوهای استفاده در دنیای واقعی
۱) انعطاف‌پذیری چندفروشنده‌ای
- اصلی: مدل سریع/ارزان؛ بازگشت: مدل با دقت بالا در 429/5xx.
- مزایا: زمان کارکرد بهتر، کنترل هزینه و کیفیت پایدار.
۲) ارتقاء مدل با پرچم ویژگی
- از وزن‌های روتر برای آزمایش یک مدل جدید برای 5٪ از ترافیک استفاده کنید؛ متریک‌ها را نظارت کنید؛ هنگام پایداری، آن را افزایش دهید.
۳) سطوح محصول
- سطح رایگان به مدل‌های کوچک مسیریابی می‌شود؛ سطح Pro به مدل‌های پریمیوم.
۴) رجیستری‌ها و قالب‌های اعلان
- اعلان‌ها را در پروکسی متمرکز کنید تا سرویس‌ها بهبودها را بدون استقرار مجدد به ارث ببرند.
۵) صورت‌حساب و بودجه‌های تیمی
- هزینه را بر اساس کلید API ردیابی کنید؛ محدودیت‌های نرم و سخت را برای هر تیم یا محصول اعمال کنید.
---
## چک لیست امنیت و انطباق
- کلیدهای ارائه‌دهنده را در مدیر راز خود ذخیره کنید؛ از طریق متغیرهای محیطی در پیکربندی ارجاع دهید.
- ویرایش درخواست و پاکسازی PII را در گزارش‌ها روشن کنید.
- از کلیدهای API مخصوص سرویس برای پروکسی استفاده کنید؛ به طور منظم بچرخانید.
- محدودیت‌های نرخ و سهمیه در سطح سازمان تعیین کنید.
- لیست‌های مجاز/غیرمجاز را برای مدل‌ها و نقاط پایانی اضافه کنید.
---
## عیب‌یابی: اصلاحات سریع
- «غیرمجاز» از طریق پروکسی: `auth.api_keys` را بررسی کنید و مطمئن شوید که کلاینت شما از `base_url` + کلید صحیح استفاده می‌کند.
- مدل یافت نشد: اطمینان حاصل کنید که `model_list` حاوی نام دوستانه‌ای است که شما فراخوانی می‌کنید.
- تایم‌اوت‌ها: `timeout` را افزایش دهید یا به یک منطقه ارائه‌دهنده با تأخیر کمتر مسیریابی کنید.
- خروجی‌های عجیب و غریب: طرحواره JSON + اعتبارسنجی را فعال کنید؛ تلاش‌های مجدد و بازگشت‌ها را اضافه کنید.
- افزایش هزینه‌ها: کش را روشن کنید؛ ترافیک انبوه را به مدل‌های ارزان‌تر مسیریابی کنید؛ سهمیه‌های هر کلید را تنظیم کنید.
برای اطلاعات بیشتر و آخرین ویژگی‌ها، اسناد رسمی به طور مکرر به‌روزرسانی می‌شوند و ارزش نشانه‌گذاری دارند. آموزش‌هایی مانند راهنمای DataCamp برای الگوهای عملی عالی هستند و ویدیوی دوره فشرده مبتدی می‌تواند به شما کمک کند تا مفاهیم را در عمل ببینید.
---
## همه را کنار هم بگذارید: اسکلت برنامه مرجع (پایتون FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### پرسش‌های متداول
Q1:LiteLLM چیست و چرا باید از آن به جای SDKهای مستقیم ارائه‌دهنده استفاده کرد؟
LiteLLM یک درگاه سازگار با OpenAI برای بیش از ۱۰۰ مدل LLM است که به شما یک API و یک مدل ذهنی می‌دهد. این ابزار قفل شدن در یک فروشنده را کاهش می‌دهد، مسیریابی را ساده می‌کند و ویژگی‌های عملیاتی مانند کش، تلاش‌های مجدد و ردیابی هزینه را اضافه می‌کند.
Q2:چگونه از LiteLLM با SDK OpenAI استفاده کنم؟
URL پایه SDK را به پروکسی LiteLLM اشاره دهید و از کلید API پروکسی خود استفاده کنید. کد شما می‌تواند یکسان بماند در حالی که پروکسی ارائه‌دهندگان یا مدل‌ها را در پشت صحنه تعویض می‌کند.
Q3:آیا LiteLLM می‌تواند پاسخ‌ها را استریم کرده و JSON را برگرداند؟
بله. از `stream=True` برای دریافت جریان‌های توکن و `response_format` با طرحواره JSON برای اعمال خروجی‌های ساختاریافته در سراسر ارائه‌دهندگان استفاده کنید.
Q4:چگونه هزینه‌ها را در بین ارائه‌دهندگان مختلف LLM کنترل کنم؟
ثبت گزارش میزان استفاده و تخمین هزینه را فعال کنید، کش را اضافه کنید، محدودیت‌های نرخ را تعیین کنید و ترافیک انبوه را از طریق پروکسی به مدل‌های ارزان‌تر مسیریابی کنید. با داشبوردها برای بودجه‌ها و SLOها نظارت کنید.
Q5:آیا LiteLLM برای تیم‌های تولید مناسب است؟
<a114>بله. پروکسی احراز هویت، محدودیت‌های نرخ، مسیریابی، قابلیت مشاهده و میان‌افزار ایمنی را فراهم می‌کند. این ابزار به عنوان یک دروازه LLM طراحی شده است که حاکمیت را متمرکز می‌کند در حالی که برنامه شما را با OpenAI سازگار نگه می‌دارد.

نحوه استفاده از LiteLLM: یک راهنمای عملی با مثال‌ها، نکات تخصصی و گردش‌کارهای واقعی