تازہ ترین 25 ستمبر 2025 کو
6 منٹ
# Pythonpip install litellm# Node.jsnpm install litellm# مثال: OpenAI + Anthropic + Mistral کا استعمال کرتے ہوئےexport OPENAI_API_KEY=sk-...export ANTHROPIC_API_KEY=sk-ant-...export MISTRAL_API_KEY=sk-mis-...from litellm import completionresp = completion(model="gpt-4o-mini", # یا "anthropic/claude-3-5-sonnet", "mistral/mistral-large"messages=.---## اسٹریمنگ، ٹولز اور JSON موڈ### اسٹریمنگ رسپانسز```pythonfrom litellm import completionfor chunk in completion(model="gpt-4o-mini",messages=.### لاگت اور ٹوکن کا استعمالLiteLLM ٹوکن کے استعمال کو ٹریک کر سکتا ہے اور فی درخواست، ماڈل یا پروجیکٹ لاگت کا تخمینہ لگا سکتا ہے۔ پراکسی کے ساتھ، آپ استعمال کو لاگز، ڈیش بورڈز یا بلنگ سنک میں ایکسپورٹ کر سکتے ہیں۔ یہ اس وقت بہت قیمتی ہے جب آپ مختلف قیمتوں کے ساتھ وینڈرز کو ملاتے ہیں۔---## LiteLLM پراکسی (LLM گیٹ وے)اگر آپ ایک ٹیم یا پلیٹ فارم ہیں، تو پراکسی اصل سپر پاور ہے: روٹنگ، اجازت، شرح کی حدود، لاگنگ اور مشاہدے کے ساتھ ایک مرکزی سروس۔ آپ اوپن اے آئی API سطح کا استعمال کرتے ہوئے اس کے ساتھ تعامل کرتے ہیں تاکہ آپ کے ایپ کوڈ میں بمشکل ہی کوئی تبدیلی آئے۔### پراکسی شروع کریں```bash# آسان ترین لوکل رنlitellm --port 4000/v1/chat/completions کو ظاہر کرتا ہے۔ اپنے موجودہ اوپن اے آئی کلائنٹ کو ` کی طرف اشارہ کریں اور آپ سیٹ ہو جائیں گے۔config.yaml بنائیں:model_list:- model_name: gpt-4o-minilitellm_params:model: openai/gpt-4o-miniapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}router:strategy: simple_weightedroutes:- model: gpt-4o-miniweight: 0.6- model: claude-3-5-sonnetweight: 0.4rate_limits:requests_per_minute: 120logging:level: infosink: stdoutauth:api_keys:- key: svc-app-123litellm --config config.yaml --port 4000from openai import OpenAIclient = OpenAI(base_url=" api_key="svc-app-123")resp = client.chat.completions.create(model="gpt-4o-mini",messages=.---## ایڈوانسڈ روٹنگ: لیٹنسی، لاگت یا قابلِ اعتمادیتآپ روٹنگ کی حکمت عملیوں کو نافذ کر سکتے ہیں جیسے:- A/B ماڈلز کے لیے ویٹڈ راؤنڈ رابن- خطے کے لحاظ سے کم سے کم لیٹنسی پہلے- غیر ضروری اینڈ پوائنٹس کے لیے لاگت سے آگاہ روٹنگ- پرووائڈرز میں فال بیک آن ایرر/دوبارہ کوششروٹر پالیسی کے ساتھ، آپ کہہ سکتے ہیں کہ "سستے کو ترجیح دیں، مشکل پرامپٹس کے لیے پریمیم پر واپس جائیں۔" یہ اعلیٰ دستیابی اور متوقع بجٹ پیش کرتا ہے۔---## گارڈریلز، ماڈریشن اور سیفٹیPII کو ہٹانے، سیفٹی فلٹرز کو نافذ کرنے، یا کلائنٹس کو واپس کرنے سے پہلے آؤٹ پٹ کو ماڈریٹ کرنے کے لیے پری اور پوسٹ پروسیسنگ مڈل ویئر شامل کریں۔ پراکسی میں اپنی پالیسی چیک کے ساتھ پرووائڈر نیٹو ماڈریشن (مثال کے طور پر، OpenAI، گوگل) کو یکجا کریں۔ مثال: JSON اسکیما کی توثیق کی ضرورت ہے اور جب غلط ہو تو دوبارہ پوچھیں۔---## مشاہدہ اور لاگنگ- ریڈیکشن کے ساتھ درخواست/رسپانس لاگنگ کو فعال کریں۔- میٹرکس کو Prometheus/Grafana یا اپنے APM میں ایکسپورٹ کریں۔- اینڈ پوائنٹ اور صارف کے لحاظ سے لیٹنسی، ٹوکن اور لاگت کو ٹریس کریں۔یہ "ماڈل رولیٹی" کو SLOs اور بجٹ کے ساتھ ایک منظم سروس میں تبدیل کر دیتا ہے۔---## حقیقی دنیا کے استعمال کے پیٹرن1) ملٹی وینڈر لچک- پرائمری: تیز/سستا ماڈل؛ فال بیک: 429/5xx پر اعلی درستگی والا ماڈل۔- فوائد: بہتر اپ ٹائم، لاگت کنٹرول اور مستحکم معیار۔2) فیچر فلیگ ماڈل اپ گریڈ- ٹریفک کے 5% پر ایک نیا ماڈل کینری کرنے کے لیے روٹر ویٹس کا استعمال کریں؛ میٹرکس کی نگرانی کریں؛ مستحکم ہونے پر رفتار بڑھائیں۔3) پروڈکٹ ٹائرز- مفت ٹائر چھوٹے ماڈلز پر روٹ کیا جاتا ہے؛ پرو ٹائر پریمیم ماڈلز پر۔4) پرامپٹ رجسٹریز اور ٹیمپلیٹس- پراکسی میں پرامپٹس کو مرکزی بنائیں تاکہ خدمات دوبارہ تعینات کیے بغیر بہتریوں کو حاصل کریں۔5) ٹیم بلنگ اور بجٹ- API کلید کے لحاظ سے خرچ کو ٹریک کریں؛ ٹیم یا پروڈکٹ کے لحاظ سے نرم اور سخت حدود نافذ کریں۔---## سیکیورٹی اور تعمیل چیک لسٹ- پرووائڈر کیز کو اپنے سیکرٹ مینیجر میں اسٹور کریں؛ کنفیگ میں env vars کے ذریعے حوالہ دیں۔- لاگز میں درخواست ریڈیکشن اور PII سکربنگ کو آن کریں۔- پراکسی کے لیے فی سروس API کیز استعمال کریں؛ باقاعدگی سے گھمائیں۔- تنظیم بھر میں شرح کی حدود اور کوٹہ مقرر کریں۔- ماڈلز اور اینڈ پوائنٹس کے لیے اجازت نامے/انکار نامے شامل کریں۔---## ٹربل شوٹنگ: فوری اصلاحات- پراکسی کے ذریعے "غیر مجاز": `auth.api_keys` چیک کریں اور یہ کہ آپ کا کلائنٹ `base_url` + درست کلید استعمال کرتا ہے۔- ماڈل نہیں ملا: یقینی بنائیں کہ `model_list` میں وہ دوستانہ نام ہے جسے آپ کال کر رہے ہیں۔- ٹائم آؤٹس: `timeout` بڑھائیں یا کم لیٹنسی والے پرووائڈر خطے میں روٹ کریں۔- عجیب آؤٹ پٹ: JSON اسکیما + توثیق کو فعال کریں؛ دوبارہ کوششیں اور فال بیکس شامل کریں۔- لاگت میں اضافہ: کیشنگ کو آن کریں؛ بلک ٹریفک کو سستے ماڈلز میں روٹ کریں؛ فی کلید کوٹہ مقرر کریں۔گہری ڈائیوز اور تازہ ترین خصوصیات کے لیے، آفیشل دستاویزات کو کثرت سے اپ ڈیٹ کیا جاتا ہے اور یہ بُک مارک کرنے کے قابل ہیں۔ DataCamp کی گائیڈ جیسے ٹیوٹوریلز عملی پیٹرن کے لیے بہترین ہیں، اور ابتدائی کریش کورس ویڈیو آپ کو ایکشن میں تصورات دیکھنے میں مدد کر سکتی ہے۔---## ان سب کو ایک ساتھ رکھیں: ریفرنس ایپ سکیلیٹن (Python FastAPI)```python# app.pyfrom fastapi import FastAPIfrom pydantic import BaseModelfrom litellm import completionimport osclass ChatReq(BaseModel):question: strapp = FastAPI@app.post("/ask")async def ask(req: ChatReq):resp = completion(model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),messages=.### اکثر پوچھے جانے والے سوالاتQ1:LiteLLM کیا ہے اور اسے براہ راست پرووائڈر SDKs پر کیوں استعمال کیا جائے؟LiteLLM 100+ LLMs کے لیے ایک اوپن اے آئی کے موافق گیٹ وے ہے، جو آپ کو ایک API اور ایک ذہنی ماڈل فراہم کرتا ہے۔ یہ وینڈر لاک ان کو کم کرتا ہے، روٹنگ کو آسان بناتا ہے، اور کیشنگ، دوبارہ کوششیں اور لاگت سے باخبر رہنے جیسی آپس خصوصیات کو شامل کرتا ہے۔Q2:میں OpenAI SDK کے ساتھ LiteLLM کو کیسے استعمال کروں؟SDK کے بیس URL کو LiteLLM پراکسی کی طرف اشارہ کریں اور اپنی پراکسی API کلید استعمال کریں۔ آپ کا کوڈ وہی رہ سکتا ہے جبکہ پراکسی پس پردہ پرووائڈرز یا ماڈلز کو تبدیل کرتی ہے۔Q3:کیا LiteLLM رسپانسز کو اسٹریم کر سکتا ہے اور JSON واپس کر سکتا ہے؟ہاں۔ ٹوکن اسٹریمز حاصل کرنے کے لیے `stream=True` استعمال کریں، اور پرووائڈرز میں منظم آؤٹ پٹ کو نافذ کرنے کے لیے JSON اسکیما کے ساتھ `response_format` استعمال کریں۔Q4:میں مختلف LLM پرووائڈرز میں لاگت کو کیسے کنٹرول کروں؟استعمال کی لاگنگ اور لاگت کا تخمینہ فعال کریں، کیشنگ شامل کریں، شرح کی حدود مقرر کریں، اور بلک ٹریفک کو پراکسی کے ذریعے سستے ماڈلز میں روٹ کریں۔ بجٹ اور SLOs کے لیے ڈیش بورڈز کے ساتھ نگرانی کریں۔Q5:کیا LiteLLM پروڈکشن ٹیموں کے لیے موزوں ہے؟ہاں۔ پراکسی اجازت، شرح کی حدود، روٹنگ، مشاہدے اور سیفٹی مڈل ویئر فراہم کرتی ہے۔ اسے ایک LLM گیٹ وے کے طور پر ڈیزائن کیا گیا ہے جو آپ کے ایپ کو اوپن اے آئی کے موافق رکھتے ہوئے گورننس کو مرکزی حیثیت دیتا ہے۔
ChatPDF میں مہارت کیسے حاصل کریں: گھنے دستاویزات سے تیز تر بصیرت

تیز، درست دستاویزات کے لیے بہترین X آٹو-ترجمہ متبادل

کیا ایران میں Samsung AI ترجمہ دستیاب نہیں؟ عملی حل

فارسی ترجمہ کے اوزار: تیز اور درست کام کے لیے عملی رہنمائی

گہرے، حوالہ دار تحقیق کے لیے بہترین Grok متبادل

اے آئی امیج جنریٹر کی 15 بہترین خصوصیات جو آپ واقعی استعمال کریں گے