What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

LiteLLM کو کیسے استعمال کریں: مثالوں، پیشہ ورانہ تجاویز اور حقیقی دنیا کے ورک فلو کے ساتھ ایک عملی گائیڈ

اگر آپ نے کبھی یہ خواہش کی ہے کہ ہر ماڈل API اوپن اے آئی کی طرح برتاؤ کرے، تو آپ کو LiteLLM ضرور پسند آئے گا۔ یہ ایک ہلکا پھلکا گیٹ وے ہے جو آپ کو ایک ہی، اوپن اے آئی کے موافق انٹرفیس کے ساتھ 100+ سے زیادہ LLMs کو کال کرنے کی سہولت دیتا ہے — مقامی طور پر کوڈ میں یا ایک مرکزی پراکسی کے ذریعے جسے آپ ٹیموں میں شیئر کر سکتے ہیں۔ اس ٹیوٹوریل میں، ہم انسٹالیشن، بنیادی اور جدید استعمال، اسٹریمنگ، بیچنگ، دوبارہ کوششیں، کیشنگ، لاگت سے باخبر رہنے اور گارڈریلز اور روٹنگ کے ساتھ LiteLLM پراکسی کو تعینات کرنے کے بارے میں بتائیں گے۔ ہم اس میں Python اور JavaScript کی مثالیں اور حقیقی دنیا کے پیٹرن بھی شامل کریں گے۔

یہ بات قابلِ ذکر ہے: اگر آپ فوری طور پر پرامپٹس کا پروٹوٹائپ بنانا چاہتے ہیں، متعدد ماڈلز میں سوالات پوچھنا چاہتے ہیں، اور نتائج کو منظم کرنا چاہتے ہیں، تو Sider.AI آپ کے LiteLLM پر مبنی اسٹیک کو وائر کرتے وقت تحقیق اور تکرار کے لیے ایک مددگار ساتھی ثابت ہو سکتا ہے۔ یہ آپ کے ورک فلو کی تکمیل کرتا ہے تاکہ آپ کو آؤٹ پٹ کا موازنہ کرنے اور کوڈفائی کرنے سے پہلے پرامپٹس کو بہتر بنانے میں مدد ملے۔

ہم ایک عملی اور حل پر مبنی راستہ اختیار کریں گے، تاکہ آپ کاپی پیسٹ کر کے بھیج سکیں۔

LiteLLM کیا ہے (اور ٹیمیں اسے کیوں استعمال کرتی ہیں)

متعدد ماڈلز کے لیے ایک API: اوپن اے آئی طرز کے فنکشنز کا استعمال کرتے ہوئے اینتھروپک، اوپن اے آئی، گوگل، ایزور، کوہیر، مسٹرل، بیڈراک اور دیگر کو کال کریں۔

اسے استعمال کرنے کے دو طریقے:

کلائنٹ SDKs (Python/JS): اسکرپٹس، سرورز، نوٹ بکس میں فوری استعمال۔

پراکسی (LLM گیٹ وے): روٹنگ، اجازت، لاگنگ، لاگت کنٹرول اور مشاہدے کے لیے سینٹرلائزڈ سروس۔

ڈراپ-اِن مطابقت: اپنی ایپ کو دوبارہ لکھے بغیر ماڈلز کو تبدیل کریں۔

آپریشنل خصوصیات: دوبارہ کوششیں، ٹائم آؤٹس، اسٹریمنگ، بیچنگ، کیشنگ، ٹریسنگ اور لاگت کی رپورٹنگ باکس سے باہر۔

اگر آپ ابھی شروعات کر رہے ہیں، تو فوری ذہنی ماڈل کے لیے آفیشل گیٹنگ سٹارٹڈ دستاویزات کو سرسری طور پر دیکھیں۔ عملی مثالوں کے لیے، DataCamp ٹیوٹوریل مرحلہ وار کوڈ کے ساتھ ایک ٹھوس ساتھی ہے۔ اگر آپ ویڈیو کو ترجیح دیتے ہیں، تو ابتدائی دوستانہ کریش کورس بھی موجود ہے۔

فوری آغاز: انسٹال کریں اور اپنی پہلی کال کریں

انسٹال

# Python
pip install litellm
# Node.js
npm install litellm

ماحولیاتی متغیرات

# مثال: OpenAI + Anthropic + Mistral کا استعمال کرتے ہوئے
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: کم سے کم چیٹ کمپلیشن

from litellm import completion
resp = completion(
model="gpt-4o-mini", # یا "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## اسٹریمنگ، ٹولز اور JSON موڈ
### اسٹریمنگ رسپانسز
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### لاگت اور ٹوکن کا استعمال
LiteLLM ٹوکن کے استعمال کو ٹریک کر سکتا ہے اور فی درخواست، ماڈل یا پروجیکٹ لاگت کا تخمینہ لگا سکتا ہے۔ پراکسی کے ساتھ، آپ استعمال کو لاگز، ڈیش بورڈز یا بلنگ سنک میں ایکسپورٹ کر سکتے ہیں۔ یہ اس وقت بہت قیمتی ہے جب آپ مختلف قیمتوں کے ساتھ وینڈرز کو ملاتے ہیں۔
---
## LiteLLM پراکسی (LLM گیٹ وے)
اگر آپ ایک ٹیم یا پلیٹ فارم ہیں، تو پراکسی اصل سپر پاور ہے: روٹنگ، اجازت، شرح کی حدود، لاگنگ اور مشاہدے کے ساتھ ایک مرکزی سروس۔ آپ اوپن اے آئی API سطح کا استعمال کرتے ہوئے اس کے ساتھ تعامل کرتے ہیں تاکہ آپ کے ایپ کوڈ میں بمشکل ہی کوئی تبدیلی آئے۔
### پراکسی شروع کریں
```bash
# آسان ترین لوکل رن
litellm --port 4000

بطور ڈیفالٹ، یہ اوپن اے آئی کے موافق اینڈ پوائنٹس جیسے /v1/chat/completions کو ظاہر کرتا ہے۔ اپنے موجودہ اوپن اے آئی کلائنٹ کو ` کی طرف اشارہ کریں اور آپ سیٹ ہو جائیں گے۔

پرووائڈرز اور کیز کو ترتیب دیں

config.yaml بنائیں:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

کنفیگ کے ساتھ چلائیں:

litellm --config config.yaml --port 4000

اوپن اے آئی SDKs سے پراکسی استعمال کریں (کوڈ میں کوئی تبدیلی نہیں)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## ایڈوانسڈ روٹنگ: لیٹنسی، لاگت یا قابلِ اعتمادیت
آپ روٹنگ کی حکمت عملیوں کو نافذ کر سکتے ہیں جیسے:
- A/B ماڈلز کے لیے ویٹڈ راؤنڈ رابن
- خطے کے لحاظ سے کم سے کم لیٹنسی پہلے
- غیر ضروری اینڈ پوائنٹس کے لیے لاگت سے آگاہ روٹنگ
- پرووائڈرز میں فال بیک آن ایرر/دوبارہ کوشش
روٹر پالیسی کے ساتھ، آپ کہہ سکتے ہیں کہ "سستے کو ترجیح دیں، مشکل پرامپٹس کے لیے پریمیم پر واپس جائیں۔" یہ اعلیٰ دستیابی اور متوقع بجٹ پیش کرتا ہے۔
---
## گارڈریلز، ماڈریشن اور سیفٹی
PII کو ہٹانے، سیفٹی فلٹرز کو نافذ کرنے، یا کلائنٹس کو واپس کرنے سے پہلے آؤٹ پٹ کو ماڈریٹ کرنے کے لیے پری اور پوسٹ پروسیسنگ مڈل ویئر شامل کریں۔ پراکسی میں اپنی پالیسی چیک کے ساتھ پرووائڈر نیٹو ماڈریشن (مثال کے طور پر، OpenAI، گوگل) کو یکجا کریں۔ مثال: JSON اسکیما کی توثیق کی ضرورت ہے اور جب غلط ہو تو دوبارہ پوچھیں۔
---
## مشاہدہ اور لاگنگ
- ریڈیکشن کے ساتھ درخواست/رسپانس لاگنگ کو فعال کریں۔
- میٹرکس کو Prometheus/Grafana یا اپنے APM میں ایکسپورٹ کریں۔
- اینڈ پوائنٹ اور صارف کے لحاظ سے لیٹنسی، ٹوکن اور لاگت کو ٹریس کریں۔
یہ "ماڈل رولیٹی" کو SLOs اور بجٹ کے ساتھ ایک منظم سروس میں تبدیل کر دیتا ہے۔
---
## حقیقی دنیا کے استعمال کے پیٹرن
1) ملٹی وینڈر لچک
- پرائمری: تیز/سستا ماڈل؛ فال بیک: 429/5xx پر اعلی درستگی والا ماڈل۔
- فوائد: بہتر اپ ٹائم، لاگت کنٹرول اور مستحکم معیار۔
2) فیچر فلیگ ماڈل اپ گریڈ
- ٹریفک کے 5% پر ایک نیا ماڈل کینری کرنے کے لیے روٹر ویٹس کا استعمال کریں؛ میٹرکس کی نگرانی کریں؛ مستحکم ہونے پر رفتار بڑھائیں۔
3) پروڈکٹ ٹائرز
- مفت ٹائر چھوٹے ماڈلز پر روٹ کیا جاتا ہے؛ پرو ٹائر پریمیم ماڈلز پر۔
4) پرامپٹ رجسٹریز اور ٹیمپلیٹس
- پراکسی میں پرامپٹس کو مرکزی بنائیں تاکہ خدمات دوبارہ تعینات کیے بغیر بہتریوں کو حاصل کریں۔
5) ٹیم بلنگ اور بجٹ
- API کلید کے لحاظ سے خرچ کو ٹریک کریں؛ ٹیم یا پروڈکٹ کے لحاظ سے نرم اور سخت حدود نافذ کریں۔
---
## سیکیورٹی اور تعمیل چیک لسٹ
- پرووائڈر کیز کو اپنے سیکرٹ مینیجر میں اسٹور کریں؛ کنفیگ میں env vars کے ذریعے حوالہ دیں۔
- لاگز میں درخواست ریڈیکشن اور PII سکربنگ کو آن کریں۔
- پراکسی کے لیے فی سروس API کیز استعمال کریں؛ باقاعدگی سے گھمائیں۔
- تنظیم بھر میں شرح کی حدود اور کوٹہ مقرر کریں۔
- ماڈلز اور اینڈ پوائنٹس کے لیے اجازت نامے/انکار نامے شامل کریں۔
---
## ٹربل شوٹنگ: فوری اصلاحات
- پراکسی کے ذریعے "غیر مجاز": `auth.api_keys` چیک کریں اور یہ کہ آپ کا کلائنٹ `base_url` + درست کلید استعمال کرتا ہے۔
- ماڈل نہیں ملا: یقینی بنائیں کہ `model_list` میں وہ دوستانہ نام ہے جسے آپ کال کر رہے ہیں۔
- ٹائم آؤٹس: `timeout` بڑھائیں یا کم لیٹنسی والے پرووائڈر خطے میں روٹ کریں۔
- عجیب آؤٹ پٹ: JSON اسکیما + توثیق کو فعال کریں؛ دوبارہ کوششیں اور فال بیکس شامل کریں۔
- لاگت میں اضافہ: کیشنگ کو آن کریں؛ بلک ٹریفک کو سستے ماڈلز میں روٹ کریں؛ فی کلید کوٹہ مقرر کریں۔
گہری ڈائیوز اور تازہ ترین خصوصیات کے لیے، آفیشل دستاویزات کو کثرت سے اپ ڈیٹ کیا جاتا ہے اور یہ بُک مارک کرنے کے قابل ہیں۔ DataCamp کی گائیڈ جیسے ٹیوٹوریلز عملی پیٹرن کے لیے بہترین ہیں، اور ابتدائی کریش کورس ویڈیو آپ کو ایکشن میں تصورات دیکھنے میں مدد کر سکتی ہے۔
---
## ان سب کو ایک ساتھ رکھیں: ریفرنس ایپ سکیلیٹن (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### اکثر پوچھے جانے والے سوالات
Q1:LiteLLM کیا ہے اور اسے براہ راست پرووائڈر SDKs پر کیوں استعمال کیا جائے؟
LiteLLM 100+ LLMs کے لیے ایک اوپن اے آئی کے موافق گیٹ وے ہے، جو آپ کو ایک API اور ایک ذہنی ماڈل فراہم کرتا ہے۔ یہ وینڈر لاک ان کو کم کرتا ہے، روٹنگ کو آسان بناتا ہے، اور کیشنگ، دوبارہ کوششیں اور لاگت سے باخبر رہنے جیسی آپس خصوصیات کو شامل کرتا ہے۔
Q2:میں OpenAI SDK کے ساتھ LiteLLM کو کیسے استعمال کروں؟
SDK کے بیس URL کو LiteLLM پراکسی کی طرف اشارہ کریں اور اپنی پراکسی API کلید استعمال کریں۔ آپ کا کوڈ وہی رہ سکتا ہے جبکہ پراکسی پس پردہ پرووائڈرز یا ماڈلز کو تبدیل کرتی ہے۔
Q3:کیا LiteLLM رسپانسز کو اسٹریم کر سکتا ہے اور JSON واپس کر سکتا ہے؟
ہاں۔ ٹوکن اسٹریمز حاصل کرنے کے لیے `stream=True` استعمال کریں، اور پرووائڈرز میں منظم آؤٹ پٹ کو نافذ کرنے کے لیے JSON اسکیما کے ساتھ `response_format` استعمال کریں۔
Q4:میں مختلف LLM پرووائڈرز میں لاگت کو کیسے کنٹرول کروں؟
استعمال کی لاگنگ اور لاگت کا تخمینہ فعال کریں، کیشنگ شامل کریں، شرح کی حدود مقرر کریں، اور بلک ٹریفک کو پراکسی کے ذریعے سستے ماڈلز میں روٹ کریں۔ بجٹ اور SLOs کے لیے ڈیش بورڈز کے ساتھ نگرانی کریں۔
Q5:کیا LiteLLM پروڈکشن ٹیموں کے لیے موزوں ہے؟
ہاں۔ پراکسی اجازت، شرح کی حدود، روٹنگ، مشاہدے اور سیفٹی مڈل ویئر فراہم کرتی ہے۔ اسے ایک LLM گیٹ وے کے طور پر ڈیزائن کیا گیا ہے جو آپ کے ایپ کو اوپن اے آئی کے موافق رکھتے ہوئے گورننس کو مرکزی حیثیت دیتا ہے۔

LiteLLM کو کیسے استعمال کریں: مثالوں، پرو ٹپس، اور حقیقی دنیا کے ورک فلو کے ساتھ ایک عملی گائیڈ