What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

כיצד להשתמש ב-LiteLLM: מדריך מעשי עם דוגמאות, טיפים למקצוענים ותהליכי עבודה מהעולם האמיתי

אם אי פעם רציתם שכל API של מודל יתנהג כמו ה-API של OpenAI, אתם הולכים לאהוב את LiteLLM. זהו שער קל משקל שמאפשר לכם לקרוא ליותר מ-100 מודלי LLM עם ממשק יחיד התואם ל-OpenAI - באופן מקומי בקוד או באמצעות פרוקסי מרכזי שתוכלו לשתף בין צוותים. במדריך זה, נעבור על התקנה, שימוש בסיסי ומתקדם, סטרימינג, אצווה, ניסיונות חוזרים, אחסון במטמון, מעקב אחר עלויות ופריסת פרוקסי LiteLLM עם אמצעי הגנה וניתוב. נכלול גם דוגמאות של Python ו-JavaScript ודפוסי עבודה מהעולם האמיתי.

ראוי לציין: אם אתם רוצים דרך מהירה ליצור אב טיפוס של הנחיות, לשאול שאלות בין מודלים מרובים ולארגן תוצאות, Sider.AI יכולה להיות שותפה מועילה למחקר ואיטרציה בזמן שאתם מחברים את מחסנית מבוססת LiteLLM שלכם. היא משלימה את זרימת העבודה שלכם על ידי כך שהיא עוזרת לכם להשוות תפוקות ולחדד הנחיות לפני שאתם מכניסים אותן לקוד.

נלך בדרך מעשית ומכוונת פתרונות, כך שתוכלו להעתיק-להדביק ולשלוח.

מה זה LiteLLM (ולמה צוותים משתמשים בו)

API אחד למודלים רבים: התקשרו ל-Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock ועוד באמצעות פונקציות בסגנון OpenAI.

שתי דרכים להשתמש בו:

מערכות SDK של לקוח (Python/JS): שימוש מהיר בסקריפטים, שרתים, מחברות.

Proxy (שער LLM): שירות מרכזי לניתוב, אימות, רישום, בקרת עלויות ויכולת צפייה.

תאימות Drop-in: החליפו מודלים מבלי לשכתב את האפליקציה שלכם.

תכונות תפעוליות: ניסיונות חוזרים, פסק זמן, סטרימינג, אצווה, אחסון במטמון, מעקב ודיווח עלויות מהקופסה.

אם אתם רק מתחילים, עיינו במסמכי תחילת העבודה הרשמיים עבור מודל מנטלי מהיר. עבור דוגמאות מעשיות, המדריך של DataCamp הוא מלווה סולידי עם קוד שלב אחר שלב. אם אתם מעדיפים וידאו, יש גם קורס קצר ידידותי למתחילים.

התחלה מהירה: התקנה והשיחה הראשונה שלכם

התקנה

# Python
pip install litellm
# Node.js
npm install litellm

משתני סביבה

# דוגמה: שימוש ב-OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: השלמת צ'אט מינימלית

from litellm import completion
resp = completion(
model="gpt-4o-mini", # או "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## סטרימינג, כלים ומצב JSON
### הזרמת תגובות
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### שימוש בעלות ובאסימונים
LiteLLM יכול לעקוב אחר השימוש באסימונים ולהעריך את העלות לכל בקשה, מודל או פרויקט. עם ה-proxy, אתה יכול לייצא שימוש ליומנים, לוחות מחוונים או לכיור חיובים. זה לא יסולא בפז כשאתה מערבב ספקים עם תמחור שונה.
---
## ה-LiteLLM Proxy (שער LLM)
אם אתה צוות או פלטפורמה, ה-proxy הוא כוח העל האמיתי: שירות מרכזי עם ניתוב, אימות, מגבלות קצב, רישום ויכולת צפייה. אתה מקיים איתו אינטראקציה באמצעות משטח ה-API של OpenAI, כך שקוד האפליקציה שלך בקושי משתנה.
### הפעל את ה-Proxy
```bash
# הריצה המקומית הפשוטה ביותר
litellm --port 4000

כברירת מחדל, הוא חושף נקודות קצה תואמות OpenAI כמו /v1/chat/completions. כוונו את לקוח OpenAI הקיים שלכם ל-` ואתם מוכנים.

הגדרת ספקים ומפתחות

צור config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

הפעל עם תצורה:

litellm --config config.yaml --port 4000

השתמש ב-Proxy ממערכות SDK של OpenAI (ללא שינויי קוד)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## ניתוב מתקדם: השהיה, עלות או אמינות
אתה יכול ליישם אסטרטגיות ניתוב כמו:
- סבב משוקלל כדי לבצע מודלי A/B
- הנמוכה ביותר-השהיה-ראשונה לפי אזור
- ניתוב מודע לעלויות עבור נקודות קצה לא קריטיות
- Fallback-on-error/נסה שוב בין ספקים
עם מדיניות ניתוב, אתה יכול לומר "העדף זול, חזור לפרמיה עבור הנחיות קשות". זה מציע זמינות גבוהה ותקציבים צפויים.
---
## אמצעי הגנה, מתינות ובטיחות
הוסף תוכנות ביניים לעיבוד מוקדם ומאוחר כדי להסיר PII, לאכוף מסנני בטיחות או למתן תפוקות לפני החזרה ללקוחות. שלב מתינות מקורית של ספקים (למשל, OpenAI, Google) עם בדיקות מדיניות משלך ב-proxy. דוגמה: דרוש אימות סכימת JSON ובקש שוב כאשר הוא לא חוקי.
---
## יכולת צפייה ורישום
- אפשר רישום בקשות/תגובות עם עריכה.
- ייצא מדדים ל-Prometheus/Grafana או ל-APM שלך.
- עקוב אחר השהיה, אסימונים ועלות לפי נקודת קצה ומשתמש.
זה הופך את "רולטת המודל" לשירות מנוהל עם SLOs ותקציבים.
---
## דפוסי שימוש בעולם האמיתי
1) גמישות מרובת ספקים
- ראשי: מודל מהיר/זול; Fallback: מודל דיוק גבוה ב-429/5xx.
- יתרונות: זמן פעולה טוב יותר, בקרת עלויות ואיכות יציבה.
2) שדרגי מודל של דגל תכונה
- השתמש במשקלי נתב כדי לבדוק מודל חדש ל-5% מהתעבורה; לפקח על מדדים; להגביר כאשר יציב.
3) דרגי מוצר
- שכבה חופשית מנותבת למודלים קטנים; שכבת Pro למודלים מובחרים.
4) רשומות ותבניות הנחיות
- רכז הנחיות ב-proxy כך ששירותים יורשים שיפורים ללא פריסות מחדש.
5) חיובים ותקציבים של צוות
- עקוב אחר הוצאות לפי מפתח API; לאכוף מגבלות רכות וקשות לכל צוות או מוצר.
---
## רשימת ביקורת של אבטחה ותאימות
- אחסן מפתחות ספק במנהל הסודות שלך; הפניה באמצעות משתני סביבה בתצורה.
- הפעל עריכת בקשות ושפשוף PII ביומנים.
- השתמש במפתחות API לכל שירות עבור ה-proxy; סובב באופן קבוע.
- הגדר מגבלות קצב ומכסות כלל ארגוניות.
- הוסף רשימות היתרים/רשימות דחייה עבור מודלים ונקודות קצה.
---
## פתרון בעיות: תיקונים מהירים
- "לא מורשה" באמצעות proxy: בדוק `auth.api_keys` ושהלקוח שלך משתמש ב-`base_url` + מפתח נכון.
- מודל לא נמצא: ודא ש-`model_list` מכיל את השם הידידותי שאתה קורא לו.
- פסק זמן: הגדל את `timeout` או נתב לאזור ספק בעל השהיה נמוכה יותר.
- פלטים מוזרים: אפשר סכימת JSON + אימות; הוסף ניסיונות חוזרים וגיבויים.
- עליות בעלויות: הפעל אחסון במטמון; נתב תעבורה בתפזורת למודלים זולים יותר; הגדר מכסות לכל מפתח.
לצלילות עמוקות יותר ולתכונות האחרונות, המסמכים הרשמיים מתעדכנים לעתים קרובות ושווים סימנייה. מדריכים כמו המדריך של DataCamp מצוינים עבור דפוסים מעשיים, וסרטון קורס הקצר למתחילים יכול לעזור לך לראות את המושגים בפעולה.
---
## חבר הכל יחד: שלד אפליקציית ייחוס (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### שאלות נפוצות
Q1: מהו LiteLLM ומדוע להשתמש בו על פני מערכות SDK ישירות של ספקים?
LiteLLM הוא שער תואם OpenAI עבור יותר מ-100 מודלי LLM, המעניק לך API אחד ומודל מנטלי אחד. זה מצמצם את נעילת הספקים, מפשט את הניתוב ומוסיף תכונות אופס כמו אחסון במטמון, ניסיונות חוזרים ומעקב אחר עלויות.
Q2: כיצד אוכל להשתמש ב-LiteLLM עם ה-SDK של OpenAI?
כוונו את כתובת ה-URL הבסיסית של ה-SDK ל-proxy של LiteLLM והשתמשו במפתח ה-API של ה-proxy שלכם. הקוד שלך יכול להישאר זהה בזמן שה-proxy מחליף ספקים או מודלים מאחורי הקלעים.
Q3: האם LiteLLM יכולה להזרים תגובות ולהחזיר JSON?
כן. השתמש ב-`stream=True` כדי לקבל זרמי אסימונים, ו-`response_format` עם סכימת JSON כדי לאכוף תפוקות מובנות בין ספקים.
Q4: כיצד אוכל לשלוט בעלויות בין ספקי LLM שונים?
אפשר רישום שימוש והערכת עלויות, הוסף אחסון במטמון, הגדר מגבלות קצב ונתב תעבורה בתפזורת למודלים זולים יותר באמצעות ה-proxy. לפקח עם לוחות מחוונים עבור תקציבים ו-SLOs.
Q5: האם LiteLLM מתאים לצוותי ייצור?
כן. ה-proxy מספק אימות, מגבלות קצב, ניתוב, יכולת צפייה ותוכנות ביניים לבטיחות. הוא מעוצב כשער LLM המרכז את הממשל תוך שמירה על תאימות האפליקציה שלך ל-OpenAI.

כיצד להשתמש ב-LiteLLM: מדריך מעשי עם דוגמאות, טיפים מקצועיים ותהליכי עבודה מהעולם האמיתי