What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

كيفية استخدام LiteLLM: دليل عملي مع أمثلة ونصائح احترافية وسير عمل واقعي

إذا كنت تتمنى أن تتصرف جميع واجهات برمجة تطبيقات النماذج مثل واجهة OpenAI، فسوف تحب LiteLLM. إنها بوابة خفيفة الوزن تتيح لك استدعاء أكثر من 100 نموذج لغوي كبير (LLM) بواجهة واحدة متوافقة مع OpenAI—محليًا في التعليمات البرمجية أو عبر وكيل مركزي يمكنك مشاركته عبر الفرق. في هذا البرنامج التعليمي، سنتناول التثبيت والاستخدام الأساسي والمتقدم والتدفق والتجميع وإعادة المحاولة والتخزين المؤقت وتتبع التكاليف ونشر وكيل LiteLLM مع الحواجز والتوجيه. سنقوم أيضًا بتضمين أمثلة Python و JavaScript وأنماط واقعية.

تجدر الإشارة: إذا كنت تريد طريقة سريعة لإنشاء نماذج أولية للمطالبات وطرح أسئلة عبر نماذج متعددة وتنظيم النتائج، فيمكن أن يكون Sider.AI مساعدًا مفيدًا للبحث والتكرار أثناء توصيل مجموعتك المستندة إلى LiteLLM. إنه يكمل سير عملك من خلال مساعدتك في مقارنة المخرجات وتحسين المطالبات قبل تدوينها.

سنسلك طريقًا عمليًا وموجهًا نحو الحلول، حتى تتمكن من النسخ واللصق والشحن.

ما هو LiteLLM (ولماذا تستخدمه الفرق)

واجهة برمجة تطبيقات واحدة للعديد من النماذج: استدعِ Anthropic و OpenAI و Google و Azure و Cohere و Mistral و Bedrock والمزيد باستخدام وظائف على غرار OpenAI.

طريقتان للاستخدام:

حزم SDK للعميل (Python/JS): استخدام سريع في البرامج النصية والخوادم وأجهزة الكمبيوتر المحمولة.

الوكيل (بوابة LLM): خدمة مركزية للتوجيه والمصادقة والتسجيل وضوابط التكلفة والمراقبة.

توافق الإحلال المباشر: بدل النماذج دون إعادة كتابة تطبيقك.

ميزات التشغيل: إعادة المحاولة، والمهلات، والتدفق، والتجميع، والتخزين المؤقت، والتتبع، والإبلاغ عن التكاليف خارج الصندوق.

إذا كنت قد بدأت للتو، فتصفح مستندات "البدء" الرسمية للحصول على نموذج ذهني سريع. للحصول على أمثلة عملية، يعد البرنامج التعليمي DataCamp رفيقًا قويًا مع التعليمات البرمجية خطوة بخطوة. إذا كنت تفضل الفيديو، فهناك أيضًا دورة تدريبية مكثفة للمبتدئين.

بداية سريعة: التثبيت وأول مكالمة لك

تثبيت

# Python
pip install litellm
# Node.js
npm install litellm

متغيرات البيئة

# مثال: استخدام OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: إكمال الدردشة بأقل حد

from litellm import completion
resp = completion(
model="gpt-4o-mini", # or "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## التدفق والأدوات ووضع JSON
### تدفق الردود
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### استخدام التكلفة والرمز المميز
يمكن لـ LiteLLM تتبع استخدام الرمز المميز وتقدير التكلفة لكل طلب أو نموذج أو مشروع. باستخدام الوكيل، يمكنك تصدير الاستخدام إلى السجلات أو لوحات المعلومات أو حوض الفوترة. هذا لا يقدر بثمن عندما تمزج البائعين بأسعار مختلفة.
---
## وكيل LiteLLM (بوابة LLM)
إذا كنت فريقًا أو نظامًا أساسيًا، فإن الوكيل هو القوة الخارقة الحقيقية: خدمة مركزية مع التوجيه والمصادقة وحدود المعدل والتسجيل والمراقبة. أنت تتفاعل معه باستخدام واجهة برمجة تطبيقات OpenAI بحيث بالكاد يتغير كود تطبيقك.
### ابدأ الوكيل
```bash
# أبسط تشغيل محلي
litellm --port 4000

بشكل افتراضي، فإنه يعرض نقاط نهاية متوافقة مع OpenAI مثل /v1/chat/completions. وجّه عميل OpenAI الحالي الخاص بك إلى ` وستكون جاهزًا.

تكوين الموفرين والمفاتيح

إنشاء config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

تشغيل مع التكوين:

litellm --config config.yaml --port 4000

استخدم الوكيل من حزم SDK الخاصة بـ OpenAI (بدون تغييرات في التعليمات البرمجية)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## التوجيه المتقدم: الكمون أو التكلفة أو الموثوقية
يمكنك تنفيذ استراتيجيات التوجيه مثل:
- التوزيع الدوري المرجح لنماذج A/B
- الأقل زمن انتقال أولاً حسب المنطقة
- التوجيه الواعي بالتكلفة لنقاط النهاية غير الحرجة
- الرجوع إلى الخطأ/إعادة المحاولة عبر الموفرين
باستخدام سياسة جهاز التوجيه، يمكنك أن تقول "فضل الرخيص، والرجوع إلى المميز للمطالبات الصعبة." هذا يوفر توافرًا عاليًا وميزانيات يمكن التنبؤ بها.
---
## الحواجز والاعتدال والسلامة
أضف برامج وسيطة للمعالجة المسبقة واللاحقة لإزالة معلومات التعريف الشخصية (PII) أو فرض عوامل تصفية الأمان أو تخفيف المخرجات قبل إعادتها إلى العملاء. ادمج الإشراف الأصلي للموفر (مثل OpenAI و Google) مع فحوصات السياسة الخاصة بك في الوكيل. مثال: اطلب التحقق من صحة مخطط JSON وأعد السؤال عندما يكون غير صالح.
---
## المراقبة والتسجيل
- تمكين تسجيل الطلبات/الاستجابات مع التنقيح.
- تصدير المقاييس إلى Prometheus/Grafana أو APM الخاص بك.
- تتبع زمن الانتقال والرموز المميزة والتكلفة حسب نقطة النهاية والمستخدم.
هذا يحول "روليت النموذج" إلى خدمة مُدارة مع اتفاقيات مستوى الخدمة والميزانيات.
---
## أنماط الاستخدام الواقعي
1) مرونة متعددة البائعين
- الأساسي: نموذج سريع/رخيص؛ الاحتياطي: نموذج عالي الدقة على 429/5xx.
- المزايا: تحسين وقت التشغيل، والتحكم في التكاليف، والجودة المستقرة.
2) ترقيات نموذج علامة الميزة
- استخدم أوزان جهاز التوجيه لتقديم نموذج جديد بنسبة 5% من حركة المرور؛ مراقبة المقاييس؛ رفع المستوى عندما يكون مستقرًا.
3) مستويات المنتج
- المستوى المجاني موجه إلى النماذج الصغيرة؛ المستوى الاحترافي للنماذج المتميزة.
4) سجلات ونماذج المطالبات
- مركزية المطالبات في الوكيل بحيث ترث الخدمات التحسينات دون عمليات إعادة النشر.
5) فواتير وميزانيات الفريق
- تتبع الإنفاق عن طريق مفتاح API؛ فرض حدودًا مرنة وصارمة لكل فريق أو منتج.
---
## قائمة التحقق من الأمن والامتثال
- قم بتخزين مفاتيح الموفر في مدير الأسرار الخاص بك؛ الرجوع إليها عبر متغيرات البيئة في التكوين.
- قم بتشغيل تنقيح الطلبات وتنظيف معلومات التعريف الشخصية في السجلات.
- استخدم مفاتيح API لكل خدمة للوكيل؛ قم بتدويرها بانتظام.
- قم بتعيين حدود ومعدلات على مستوى المؤسسة.
- إضافة قوائم السماح/الرفض للنماذج ونقاط النهاية.
---
## استكشاف الأخطاء وإصلاحها: إصلاحات سريعة
- "غير مصرح به" عبر الوكيل: تحقق من `auth.api_keys` وأن عميلك يستخدم `base_url` + المفتاح الصحيح.
- لم يتم العثور على النموذج: تأكد من أن `model_list` يحتوي على الاسم المألوف الذي تستدعيه.
- المهلات: قم بزيادة `timeout` أو التوجيه إلى منطقة موفر أقل زمن انتقال.
- مخرجات غريبة: تمكين مخطط JSON + التحقق من الصحة؛ إضافة عمليات إعادة محاولة واحتياطية.
- ارتفاعات التكلفة: قم بتشغيل التخزين المؤقت؛ قم بتوجيه حركة المرور المجمعة إلى نماذج أرخص؛ تعيين حصص لكل مفتاح.
للحصول على مزيد من الغوص العميق وأحدث الميزات، يتم تحديث المستندات الرسمية بشكل متكرر وتستحق وضع إشارة مرجعية عليها. تعد البرامج التعليمية مثل دليل DataCamp رائعة للأنماط العملية، ويمكن أن يساعدك فيديو الدورة التدريبية المكثفة للمبتدئين على رؤية المفاهيم في العمل.
---
## ضع كل شيء معًا: الهيكل المرجعي للتطبيق (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### أسئلة وأجوبة
س1: ما هو LiteLLM ولماذا يتم استخدامه بدلاً من حزم SDK المباشرة للموفرين؟
LiteLLM هي بوابة متوافقة مع OpenAI لأكثر من 100 نموذج لغوي كبير، مما يمنحك واجهة برمجة تطبيقات واحدة ونموذجًا ذهنيًا واحدًا. فهو يقلل من تقييد البائع، ويبسط التوجيه، ويضيف ميزات العمليات مثل التخزين المؤقت وإعادة المحاولة وتتبع التكاليف.
س2: كيف يمكنني استخدام LiteLLM مع OpenAI SDK؟
وجّه عنوان URL الأساسي لـ SDK إلى وكيل LiteLLM واستخدم مفتاح API الخاص بالوكيل. يمكن أن يظل الكود الخاص بك كما هو بينما يبدل الوكيل الموفرين أو النماذج خلف الكواليس.
س3: هل يمكن لـ LiteLLM بث الاستجابات وإرجاع JSON؟
نعم. استخدم `stream=True` للحصول على تدفقات الرمز المميز، و `response_format` مع مخطط JSON لفرض مخرجات منظمة عبر الموفرين.
س4: كيف يمكنني التحكم في التكاليف عبر موفري LLM المختلفين؟
قم بتمكين تسجيل الاستخدام وتقدير التكلفة، وإضافة التخزين المؤقت، وتعيين حدود المعدل، وتوجيه حركة المرور المجمعة إلى نماذج أرخص عبر الوكيل. مراقبة مع لوحات المعلومات للميزانيات واتفاقيات مستوى الخدمة.
س5: هل LiteLLM مناسبة لفرق الإنتاج؟
نعم. يوفر الوكيل المصادقة وحدود المعدل والتوجيه والمراقبة والبرامج الوسيطة للسلامة. لقد تم تصميمه كبوابة LLM تعمل على مركزية الإدارة مع الحفاظ على توافق تطبيقك مع OpenAI.