עודכן ב- 25 ספט 2025
6 דקות
# Pythonpip install litellm# Node.jsnpm install litellm# דוגמה: שימוש ב-OpenAI + Anthropic + Mistralexport OPENAI_API_KEY=sk-...export ANTHROPIC_API_KEY=sk-ant-...export MISTRAL_API_KEY=sk-mis-...from litellm import completionresp = completion(model="gpt-4o-mini", # או "anthropic/claude-3-5-sonnet", "mistral/mistral-large"messages=.---## סטרימינג, כלים ומצב JSON### הזרמת תגובות```pythonfrom litellm import completionfor chunk in completion(model="gpt-4o-mini",messages=.### שימוש בעלות ובאסימוניםLiteLLM יכול לעקוב אחר השימוש באסימונים ולהעריך את העלות לכל בקשה, מודל או פרויקט. עם ה-proxy, אתה יכול לייצא שימוש ליומנים, לוחות מחוונים או לכיור חיובים. זה לא יסולא בפז כשאתה מערבב ספקים עם תמחור שונה.---## ה-LiteLLM Proxy (שער LLM)אם אתה צוות או פלטפורמה, ה-proxy הוא כוח העל האמיתי: שירות מרכזי עם ניתוב, אימות, מגבלות קצב, רישום ויכולת צפייה. אתה מקיים איתו אינטראקציה באמצעות משטח ה-API של OpenAI, כך שקוד האפליקציה שלך בקושי משתנה.### הפעל את ה-Proxy```bash# הריצה המקומית הפשוטה ביותרlitellm --port 4000/v1/chat/completions. כוונו את לקוח OpenAI הקיים שלכם ל-` ואתם מוכנים.config.yaml:model_list:- model_name: gpt-4o-minilitellm_params:model: openai/gpt-4o-miniapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}router:strategy: simple_weightedroutes:- model: gpt-4o-miniweight: 0.6- model: claude-3-5-sonnetweight: 0.4rate_limits:requests_per_minute: 120logging:level: infosink: stdoutauth:api_keys:- key: svc-app-123litellm --config config.yaml --port 4000from openai import OpenAIclient = OpenAI(base_url=" api_key="svc-app-123")resp = client.chat.completions.create(model="gpt-4o-mini",messages=.---## ניתוב מתקדם: השהיה, עלות או אמינותאתה יכול ליישם אסטרטגיות ניתוב כמו:- סבב משוקלל כדי לבצע מודלי A/B- הנמוכה ביותר-השהיה-ראשונה לפי אזור- ניתוב מודע לעלויות עבור נקודות קצה לא קריטיות- Fallback-on-error/נסה שוב בין ספקיםעם מדיניות ניתוב, אתה יכול לומר "העדף זול, חזור לפרמיה עבור הנחיות קשות". זה מציע זמינות גבוהה ותקציבים צפויים.---## אמצעי הגנה, מתינות ובטיחותהוסף תוכנות ביניים לעיבוד מוקדם ומאוחר כדי להסיר PII, לאכוף מסנני בטיחות או למתן תפוקות לפני החזרה ללקוחות. שלב מתינות מקורית של ספקים (למשל, OpenAI, Google) עם בדיקות מדיניות משלך ב-proxy. דוגמה: דרוש אימות סכימת JSON ובקש שוב כאשר הוא לא חוקי.---## יכולת צפייה ורישום- אפשר רישום בקשות/תגובות עם עריכה.- ייצא מדדים ל-Prometheus/Grafana או ל-APM שלך.- עקוב אחר השהיה, אסימונים ועלות לפי נקודת קצה ומשתמש.זה הופך את "רולטת המודל" לשירות מנוהל עם SLOs ותקציבים.---## דפוסי שימוש בעולם האמיתי1) גמישות מרובת ספקים- ראשי: מודל מהיר/זול; Fallback: מודל דיוק גבוה ב-429/5xx.- יתרונות: זמן פעולה טוב יותר, בקרת עלויות ואיכות יציבה.2) שדרגי מודל של דגל תכונה- השתמש במשקלי נתב כדי לבדוק מודל חדש ל-5% מהתעבורה; לפקח על מדדים; להגביר כאשר יציב.3) דרגי מוצר- שכבה חופשית מנותבת למודלים קטנים; שכבת Pro למודלים מובחרים.4) רשומות ותבניות הנחיות- רכז הנחיות ב-proxy כך ששירותים יורשים שיפורים ללא פריסות מחדש.5) חיובים ותקציבים של צוות- עקוב אחר הוצאות לפי מפתח API; לאכוף מגבלות רכות וקשות לכל צוות או מוצר.---## רשימת ביקורת של אבטחה ותאימות- אחסן מפתחות ספק במנהל הסודות שלך; הפניה באמצעות משתני סביבה בתצורה.- הפעל עריכת בקשות ושפשוף PII ביומנים.- השתמש במפתחות API לכל שירות עבור ה-proxy; סובב באופן קבוע.- הגדר מגבלות קצב ומכסות כלל ארגוניות.- הוסף רשימות היתרים/רשימות דחייה עבור מודלים ונקודות קצה.---## פתרון בעיות: תיקונים מהירים- "לא מורשה" באמצעות proxy: בדוק `auth.api_keys` ושהלקוח שלך משתמש ב-`base_url` + מפתח נכון.- מודל לא נמצא: ודא ש-`model_list` מכיל את השם הידידותי שאתה קורא לו.- פסק זמן: הגדל את `timeout` או נתב לאזור ספק בעל השהיה נמוכה יותר.- פלטים מוזרים: אפשר סכימת JSON + אימות; הוסף ניסיונות חוזרים וגיבויים.- עליות בעלויות: הפעל אחסון במטמון; נתב תעבורה בתפזורת למודלים זולים יותר; הגדר מכסות לכל מפתח.לצלילות עמוקות יותר ולתכונות האחרונות, המסמכים הרשמיים מתעדכנים לעתים קרובות ושווים סימנייה. מדריכים כמו המדריך של DataCamp מצוינים עבור דפוסים מעשיים, וסרטון קורס הקצר למתחילים יכול לעזור לך לראות את המושגים בפעולה.---## חבר הכל יחד: שלד אפליקציית ייחוס (Python FastAPI)```python# app.pyfrom fastapi import FastAPIfrom pydantic import BaseModelfrom litellm import completionimport osclass ChatReq(BaseModel):question: strapp = FastAPI@app.post("/ask")async def ask(req: ChatReq):resp = completion(model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),messages=.### שאלות נפוצותQ1: מהו LiteLLM ומדוע להשתמש בו על פני מערכות SDK ישירות של ספקים?LiteLLM הוא שער תואם OpenAI עבור יותר מ-100 מודלי LLM, המעניק לך API אחד ומודל מנטלי אחד. זה מצמצם את נעילת הספקים, מפשט את הניתוב ומוסיף תכונות אופס כמו אחסון במטמון, ניסיונות חוזרים ומעקב אחר עלויות.Q2: כיצד אוכל להשתמש ב-LiteLLM עם ה-SDK של OpenAI?כוונו את כתובת ה-URL הבסיסית של ה-SDK ל-proxy של LiteLLM והשתמשו במפתח ה-API של ה-proxy שלכם. הקוד שלך יכול להישאר זהה בזמן שה-proxy מחליף ספקים או מודלים מאחורי הקלעים.Q3: האם LiteLLM יכולה להזרים תגובות ולהחזיר JSON?כן. השתמש ב-`stream=True` כדי לקבל זרמי אסימונים, ו-`response_format` עם סכימת JSON כדי לאכוף תפוקות מובנות בין ספקים.Q4: כיצד אוכל לשלוט בעלויות בין ספקי LLM שונים?אפשר רישום שימוש והערכת עלויות, הוסף אחסון במטמון, הגדר מגבלות קצב ונתב תעבורה בתפזורת למודלים זולים יותר באמצעות ה-proxy. לפקח עם לוחות מחוונים עבור תקציבים ו-SLOs.Q5: האם LiteLLM מתאים לצוותי ייצור?כן. ה-proxy מספק אימות, מגבלות קצב, ניתוב, יכולת צפייה ותוכנות ביניים לבטיחות. הוא מעוצב כשער LLM המרכז את הממשל תוך שמירה על תאימות האפליקציה שלך ל-OpenAI.
איך לשלוט ב-ChatPDF: תובנות מהירות ממסמכים צפופים

החלופה הטובה ביותר ל-X Auto-Translation לתרגום מהיר ומדויק של מסמכים

תרגום AI של Samsung אינו זמין באיראן? פתרונות מעשיים

כלי תרגום לפרסית: מדריך מעשי לעבודה מהירה ומדויקת

החלופה הטובה ביותר ל-Grok למחקר מעמיק ומבוסס ציטוטים

15 התכונות המובילות של מחולל תמונות AI שתשתמשו בהן בפועל