अद्यतन 25 सित. 2025 को
6 मिनट
# पायथनpip install litellm# Node.jsnpm install litellm# उदाहरण: ओपेनएआई + एंथ्रोपिक + मिस्ट्रल का उपयोग करनाexport OPENAI_API_KEY=sk-...export ANTHROPIC_API_KEY=sk-ant-...export MISTRAL_API_KEY=sk-mis-...from litellm import completionresp = completion(model="gpt-4o-mini", # या "anthropic/claude-3-5-sonnet", "mistral/mistral-large"messages=.---## स्ट्रीमिंग, टूल्स और JSON मोड### स्ट्रीमिंग प्रतिक्रियाएँ```pythonfrom litellm import completionfor chunk in completion(model="gpt-4o-mini",messages=.### लागत और टोकन उपयोगLiteLLM टोकन उपयोग को ट्रैक कर सकता है और प्रति अनुरोध, मॉडल या प्रोजेक्ट लागत का अनुमान लगा सकता है। प्रॉक्सी के साथ, आप उपयोग को लॉग, डैशबोर्ड या बिलिंग सिंक में निर्यात कर सकते हैं। यह अमूल्य है जब आप विभिन्न मूल्य निर्धारण वाले विक्रेताओं को मिलाते हैं।---## LiteLLM प्रॉक्सी (LLM गेटवे)यदि आप एक टीम या प्लेटफ़ॉर्म हैं, तो प्रॉक्सी वास्तविक महाशक्ति है: रूटिंग, ऑथ, दर सीमा, लॉगिंग और अवलोकन क्षमता के साथ एक केंद्रीय सेवा। आप ओपेनएआई (OpenAI) API सतह का उपयोग करके इसके साथ इंटरैक्ट करते हैं ताकि आपका ऐप कोड मुश्किल से बदलता है।### प्रॉक्सी शुरू करें```bash# सबसे सरल स्थानीय रनlitellm --port 4000/v1/chat/completions जैसे ओपेनएआई-संगत एंडपॉइंट को उजागर करता है। अपने मौजूदा ओपेनएआई क्लाइंट को ` पर इंगित करें और आप सेट हैं।config.yaml बनाएँ:model_list:- model_name: gpt-4o-minilitellm_params:model: openai/gpt-4o-miniapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}router:strategy: simple_weightedroutes:- model: gpt-4o-miniweight: 0.6- model: claude-3-5-sonnetweight: 0.4rate_limits:requests_per_minute: 120logging:level: infosink: stdoutauth:api_keys:- key: svc-app-123litellm --config config.yaml --port 4000from openai import OpenAIclient = OpenAI(base_url=" api_key="svc-app-123")resp = client.chat.completions.create(model="gpt-4o-mini",messages=.---## उन्नत रूटिंग: विलंबता, लागत या विश्वसनीयताआप रूटिंग रणनीतियों को लागू कर सकते हैं जैसे:- A/B मॉडल के लिए भारित राउंड-रॉबिन- क्षेत्र द्वारा सबसे कम-विलंबता-पहला- गैर-महत्वपूर्ण एंडपॉइंट के लिए लागत-जागरूक रूटिंग- प्रदाताओं में फ़ेलबैक-ऑन-एरर/पुनः प्रयासएक राउटर नीति के साथ, आप कह सकते हैं "सस्ते को प्राथमिकता दें, कठिन प्रॉम्प्ट के लिए प्रीमियम पर वापस जाएँ।" यह उच्च उपलब्धता और अनुमानित बजट प्रदान करता है।---## गार्डरेल, मॉडरेशन और सुरक्षाक्लाइंट को वापस करने से पहले PII को हटाने, सुरक्षा फ़िल्टर लागू करने या आउटपुट को मॉडरेट करने के लिए पूर्व- और बाद-प्रसंस्करण मिडलवेयर जोड़ें। प्रॉक्सी में अपनी नीति जाँच के साथ प्रदाता-देशी मॉडरेशन (जैसे, ओपेनएआई (OpenAI), गूगल (Google)) को मिलाएं। उदाहरण: JSON स्कीमा सत्यापन की आवश्यकता है और अमान्य होने पर पुनः पूछें।---## अवलोकन क्षमता और लॉगिंग- रिडेक्शन के साथ अनुरोध/प्रतिक्रिया लॉगिंग सक्षम करें।- मेट्रिक्स को प्रोमेथियस/ग्राफाना या अपने APM में निर्यात करें।- एंडपॉइंट और उपयोगकर्ता द्वारा विलंबता, टोकन और लागत को ट्रेस करें।यह "मॉडल रूले" को SLO और बजट के साथ एक प्रबंधित सेवा में बदल देता है।---## वास्तविक दुनिया के उपयोग के पैटर्न1) बहु-विक्रेता लचीलापन- प्राथमिक: तेज़/सस्ता मॉडल; फ़ेलबैक: 429/5xx पर उच्च-सटीकता मॉडल।- लाभ: बेहतर अपटाइम, लागत नियंत्रण और स्थिर गुणवत्ता।2) फ़ीचर फ़्लैग मॉडल अपग्रेड- 5% ट्रैफ़िक पर एक नए मॉडल को कैनरी करने के लिए राउटर वज़न का उपयोग करें; मेट्रिक्स की निगरानी करें; स्थिर होने पर बढ़ाएँ।3) उत्पाद स्तर- मुफ़्त स्तर छोटे मॉडलों के लिए रूट किया गया; प्रो स्तर प्रीमियम मॉडल के लिए।4) प्रॉम्प्ट रजिस्ट्रियाँ और टेम्पलेट- प्रॉक्सी में प्रॉम्प्ट को केंद्रीकृत करें ताकि सेवाएँ पुनः तैनाती के बिना सुधारों को विरासत में प्राप्त करें।5) टीम बिलिंग और बजट- API कुंजी द्वारा खर्च को ट्रैक करें; टीम या उत्पाद के अनुसार नरम और कड़ी सीमाएँ लागू करें।---## सुरक्षा और अनुपालन चेकलिस्ट- अपने गुप्त प्रबंधक में प्रदाता कुंजियों को संग्रहीत करें; कॉन्फ़िग में env vars के माध्यम से संदर्भ लें।- लॉग में अनुरोध रिडेक्शन और PII स्क्रबिंग चालू करें।- प्रॉक्सी के लिए प्रति-सेवा API कुंजियों का उपयोग करें; नियमित रूप से घुमाएँ।- संगठन-व्यापी दर सीमाएँ और कोटा सेट करें।- मॉडल और एंडपॉइंट के लिए अनुमति सूची/अस्वीकृति सूची जोड़ें।---## समस्या निवारण: त्वरित सुधार- प्रॉक्सी के माध्यम से "अनधिकृत": `auth.api_keys` और जाँच करें कि आपका क्लाइंट `base_url` + सही कुंजी का उपयोग करता है।- मॉडल नहीं मिला: सुनिश्चित करें कि `model_list` में वह दोस्ताना नाम है जिसे आप कॉल कर रहे हैं।- टाइमआउट: `timeout` बढ़ाएँ या कम-विलंबता प्रदाता क्षेत्र में रूट करें।- अजीब आउटपुट: JSON स्कीमा + सत्यापन सक्षम करें; पुनः प्रयास और फ़ेलबैक जोड़ें।- लागत में वृद्धि: कैशिंग चालू करें; थोक ट्रैफ़िक को सस्ते मॉडल में रूट करें; प्रति-कुंजी कोटा सेट करें।गहरे गोता और नवीनतम सुविधाओं के लिए, आधिकारिक दस्तावेज़ों को अक्सर अपडेट किया जाता है और बुकमार्क करने योग्य होते हैं। डेटाकैंप के गाइड जैसे ट्यूटोरियल हैंड्स-ऑन पैटर्न के लिए बहुत अच्छे हैं, और शुरुआती क्रैश कोर्स वीडियो आपको क्रिया में अवधारणाओं को देखने में मदद कर सकता है।---## इसे एक साथ रखें: संदर्भ ऐप कंकाल (पायथन FastAPI)```python# app.pyfrom fastapi import FastAPIfrom pydantic import BaseModelfrom litellm import completionimport osclass ChatReq(BaseModel):question: strapp = FastAPI@app.post("/ask")async def ask(req: ChatReq):resp = completion(model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),messages=.### FAQQ1: LiteLLM क्या है और प्रत्यक्ष प्रदाता SDK पर इसका उपयोग क्यों करें?LiteLLM 100+ LLM के लिए एक ओपेनएआई-संगत गेटवे है, जो आपको एक API और एक मानसिक मॉडल देता है। यह विक्रेता लॉक-इन को कम करता है, रूटिंग को सरल करता है और कैशिंग, पुनः प्रयास और लागत ट्रैकिंग जैसी ऑप्स सुविधाएँ जोड़ता है।Q2: मैं ओपेनएआई (OpenAI) SDK के साथ LiteLLM का उपयोग कैसे करूँ?SDK के बेस URL को LiteLLM प्रॉक्सी पर इंगित करें और अपनी प्रॉक्सी API कुंजी का उपयोग करें। आपका कोड समान रह सकता है जबकि प्रॉक्सी पर्दे के पीछे प्रदाताओं या मॉडल को स्वैप करता है।Q3: क्या LiteLLM प्रतिक्रियाओं को स्ट्रीम कर सकता है और JSON वापस कर सकता है?हाँ। टोकन स्ट्रीम प्राप्त करने के लिए `stream=True` का उपयोग करें, और प्रदाताओं में संरचित आउटपुट को लागू करने के लिए JSON स्कीमा के साथ `response_format` का उपयोग करें।Q4: मैं विभिन्न LLM प्रदाताओं में लागत को कैसे नियंत्रित करूँ?उपयोग लॉगिंग और लागत अनुमान सक्षम करें, कैशिंग जोड़ें, दर सीमाएँ सेट करें और प्रॉक्सी के माध्यम से थोक ट्रैफ़िक को सस्ते मॉडल में रूट करें। बजट और SLO के लिए डैशबोर्ड के साथ निगरानी करें।Q5: क्या LiteLLM उत्पादन टीमों के लिए उपयुक्त है?हाँ। प्रॉक्सी ऑथ, दर सीमाएँ, रूटिंग, अवलोकन क्षमता और सुरक्षा मिडलवेयर प्रदान करता है। इसे एक LLM गेटवे के रूप में डिज़ाइन किया गया है जो आपके ऐप को ओपेनएआई-संगत रखते हुए शासन को केंद्रीकृत करता है।
कैसे करें ChatPDF में महारत: घने दस्तावेज़ों से तेजी से जानकारी प्राप्त करें

तेज़ और सटीक दस्तावेज़ों के लिए सर्वश्रेष्ठ X Auto-Translation विकल्प

ईरान में Samsung AI अनुवाद उपलब्ध नहीं? व्यावहारिक समाधान

फ़ारसी अनुवाद उपकरण: तेज़ और सटीक काम के लिए एक व्यावहारिक मार्गदर्शिका

गहराई से संदर्भित अनुसंधान के लिए सर्वश्रेष्ठ Grok विकल्प

AI इमेज जेनरेटर की 15 बेहतरीन विशेषताएं जिनका आप वास्तव में उपयोग करेंगे