अद्यतनित 25 सप्टें. 2025 रोजी
6 मिनिट
# Pythonpip install litellm# Node.jsnpm install litellm# उदाहरण: OpenAI + Anthropic + Mistral वापरणेexport OPENAI_API_KEY=sk-...export ANTHROPIC_API_KEY=sk-ant-...export MISTRAL_API_KEY=sk-mis-...from litellm import completionresp = completion(model="gpt-4o-mini", # किंवा "anthropic/claude-3-5-sonnet", "mistral/mistral-large"messages=.---## स्ट्रीमिंग, टूल्स आणि JSON मोड### स्ट्रीमिंग प्रतिसाद```pythonfrom litellm import completionfor chunk in completion(model="gpt-4o-mini",messages=.### खर्च आणि टोकन वापरLiteLLM टोकन वापर ट्रॅक करू शकते आणि प्रति विनंती, मॉडेल किंवा प्रोजेक्ट खर्चचा अंदाज लावू शकते. प्रॉक्सीसह, तुम्ही वापर लॉग, डॅशबोर्ड किंवा बिलिंग सिंकमध्ये एक्सपोर्ट करू शकता. जेव्हा तुम्ही वेगवेगळ्या किंमती असलेले विक्रेते मिक्स करता तेव्हा हे खूप महत्वाचे आहे.---## LiteLLM प्रॉक्सी (LLM गेटवे)जर तुम्ही टीम किंवा प्लॅटफॉर्म असाल, तर प्रॉक्सी हे खरे सुपरपॉवर आहे: राउटिंग, ऑथ, रेट लिमिट्स, लॉगिंग आणि ऑब्जर्वेबिलिटी असलेली एक मध्यवर्ती सेवा. तुम्ही OpenAI API सरफेस वापरून तिच्याशी संवाद साधता त्यामुळे तुमच्या ॲप कोडमध्ये फारसा बदल होत नाही.### प्रॉक्सी सुरू करा```bash# सर्वात सोपे लोकल रनlitellm --port 4000/v1/chat/completions सारखे OpenAI-सुसंगत एंडपॉइंट्स उघड करते. तुमचा विद्यमान OpenAI क्लायंट ` कडे निर्देशित करा आणि तुम्ही तयार आहात.config.yaml तयार करा:model_list:- model_name: gpt-4o-minilitellm_params:model: openai/gpt-4o-miniapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}router:strategy: simple_weightedroutes:- model: gpt-4o-miniweight: 0.6- model: claude-3-5-sonnetweight: 0.4rate_limits:requests_per_minute: 120logging:level: infosink: stdoutauth:api_keys:- key: svc-app-123litellm --config config.yaml --port 4000from openai import OpenAIclient = OpenAI(base_url=" api_key="svc-app-123")resp = client.chat.completions.create(model="gpt-4o-mini",messages=.---## प्रगत राउटिंग: लेटेंसी, खर्च किंवा विश्वसनीयतातुम्ही राउटिंग स्ट्रॅटेजी लागू करू शकता जसे की:- A/B मॉडेल्ससाठी भारित राउंड-रॉबिन- प्रदेशानुसार सर्वात कमी लेटेंसी-फर्स्ट- नॉन-क्रिटिकल एंडपॉइंट्ससाठी खर्च-जागरूक राउटिंग- एरर आल्यास फॉलबॅक/प्रदात्यांमध्ये रिट्रायrouter पॉलिसीसह, तुम्ही म्हणू शकता "स्वस्तला प्राधान्य द्या, कठीण प्रॉम्प्ट्ससाठी प्रीमियमवर फॉलबॅक करा." हे उच्च उपलब्धता आणि अंदाजित बजेट देते.---## गार्डरेल्स, मॉडरेशन आणि सुरक्षाक्लायंटला परत करण्यापूर्वी PII काढण्यासाठी, सुरक्षा फिल्टर लागू करण्यासाठी किंवा आउटपुट मॉडरेट करण्यासाठी प्री- आणि पोस्ट-प्रोसेसिंग मिडलवेअर जोडा. प्रॉक्सीमध्ये तुमच्या स्वतःच्या पॉलिसी चेक्ससह प्रदाता-नेटिव्ह मॉडरेशन (उदा. OpenAI, Google) एकत्र करा. उदाहरण: JSON स्कीमा व्हॅलिडेशन आवश्यक आहे आणि अवैध असल्यास पुन्हा विचारा.---## ऑब्जर्वेबिलिटी आणि लॉगिंग- रिडक्शनसह विनंती/प्रतिक्रिया लॉगिंग सक्षम करा.- Prometheus/Grafana किंवा तुमच्या APM मध्ये मेट्रिक्स एक्सपोर्ट करा.- एंडपॉइंट आणि वापरकर्त्यानुसार लेटेंसी, टोकन आणि खर्च ट्रेस करा.हे "मॉडेल रूले" ला SLOs आणि बजेटसह व्यवस्थापित सेवेत रूपांतरित करते.---## वास्तविक-जगातील वापर पॅटर्न1) मल्टी-व्हेंडर लवचिकता- प्रायमरी: जलद/स्वस्त मॉडेल; फॉलबॅक: 429/5xx वर उच्च-अचूकता मॉडेल.- फायदे: चांगली अपटाइम, खर्च नियंत्रण आणि स्थिर गुणवत्ता.2) फीचर फ्लॅग मॉडेल अपग्रेड- 5% ट्रॅफिकवर नवीन मॉडेल कॅनरी करण्यासाठी router वेट्स वापरा; मेट्रिक्सचे निरीक्षण करा; स्थिर झाल्यावर वाढवा.3) उत्पादन स्तर- लहान मॉडेल्सवर रूट केलेला फ्री स्तर; प्रीमियम मॉडेल्सवर प्रो स्तर.4) प्रॉम्प्ट रजिस्ट्री आणि टेम्पलेट्स- प्रॉम्प्ट्स प्रॉक्सीमध्ये सेंट्रलाइज करा जेणेकरून सेवांना रीडिप्लॉयशिवाय सुधारणा वारसा मिळतील.5) टीम बिलिंग आणि बजेट- API key नुसार खर्च मागोवा; टीम किंवा उत्पादन प्रति सॉफ्ट आणि हार्ड लिमिट लागू करा.---## सुरक्षा आणि अनुपालन चेकलिस्ट- तुमचा सीक्रेट मॅनेजरमध्ये प्रदाता keys साठवा; कॉन्फिगमध्ये env vars द्वारे संदर्भ द्या.- लॉगमध्ये विनंती रिडक्शन आणि PII स्क्रबिंग सुरू करा.- प्रॉक्सीसाठी प्रति-सर्व्हिस API keys वापरा; नियमितपणे रोटेट करा.- ऑर्ग-वाइड रेट लिमिट्स आणि कोटा सेट करा.- मॉडेल्स आणि एंडपॉइंट्ससाठी allowlists/denylists जोडा.---## समस्या निवारण: जलद उपाय- प्रॉक्सीद्वारे “अनधिकृत”: `auth.api_keys` आणि तुमचा क्लायंट `base_url` + योग्य key वापरतो का ते तपासा.- मॉडेल सापडले नाही: `model_list` मध्ये तुम्ही कॉल करत असलेले फ्रेंडली नाव आहे याची खात्री करा.- टाइमआउट्स: `timeout` वाढवा किंवा कमी-लेटेंसी प्रदाता प्रदेशात रूट करा.- विचित्र आउटपुट: JSON स्कीमा + व्हॅलिडेशन सक्षम करा; रिट्राय आणि फॉलबॅक जोडा.- खर्च वाढणे: कॅशिंग सुरू करा; स्वस्त मॉडेल्सवर मोठ्या प्रमाणात ट्रॅफिक रूट करा; प्रति-key कोटा सेट करा.अधिक माहिती आणि नवीनतम वैशिष्ट्यांसाठी, अधिकृत डॉक्स वारंवार अपडेट केले जातात आणि बुकमार्क करण्यासारखे आहेत. DataCamp च्या मार्गदर्शकासारखे ट्युटोरियल प्रत्यक्ष पॅटर्नसाठी उत्तम आहेत आणि बिगिनर क्रॅश कोर्स व्हिडिओ तुम्हाला ॲक्शनमधील संकल्पना पाहण्यास मदत करू शकतात.---## हे सर्व एकत्र ठेवा: संदर्भ ॲप स्केलेटन (Python FastAPI)```python# app.pyfrom fastapi import FastAPIfrom pydantic import BaseModelfrom litellm import completionimport osclass ChatReq(BaseModel):question: strapp = FastAPI@app.post("/ask")async def ask(req: ChatReq):resp = completion(model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),messages=.### FAQQ1: LiteLLM म्हणजे काय आणि डायरेक्ट प्रदाता SDKs ऐवजी ते का वापरावे?LiteLLM हे 100+ LLMs साठी OpenAI-सुसंगत गेटवे आहे, जे तुम्हाला एक API आणि एक मानसिक मॉडेल देते. हे विक्रेता लॉक-इन कमी करते, राउटिंग सोपे करते आणि कॅशिंग, रिट्राय आणि खर्च ट्रॅकिंग यांसारखी ऑप्स वैशिष्ट्ये जोडते.Q2: मी OpenAI SDK सह LiteLLM कसे वापरू?SDK चा बेस URL LiteLLM प्रॉक्सीकडे निर्देशित करा आणि तुमची प्रॉक्सी API key वापरा. तुमचा कोड तोच राहू शकतो तर प्रॉक्सी पडद्यामागे प्रदाते किंवा मॉडेल्स बदलतो.Q3: LiteLLM प्रतिसाद स्ट्रीम करू शकते आणि JSON परत करू शकते?होय. टोकन स्ट्रीम मिळवण्यासाठी `stream=True` वापरा आणि प्रदात्यांमध्ये संरचित आउटपुट लागू करण्यासाठी JSON स्कीमासह `response_format` वापरा.Q4: मी वेगवेगळ्या LLM प्रदात्यांमध्ये खर्च कसा नियंत्रित करू?वापर लॉगिंग आणि खर्च अंदाज सक्षम करा, कॅशिंग जोडा, रेट लिमिट सेट करा आणि प्रॉक्सीद्वारे स्वस्त मॉडेल्सवर मोठ्या प्रमाणात ट्रॅफिक रूट करा. बजेट आणि SLOs साठी डॅशबोर्डसह निरीक्षण करा.Q5: LiteLLM उत्पादन टीमसाठी योग्य आहे का?होय. प्रॉक्सी ऑथ, रेट लिमिट, राउटिंग, ऑब्जर्वेबिलिटी आणि सुरक्षा मिडलवेअर प्रदान करते. हे LLM गेटवे म्हणून डिझाइन केलेले आहे जे तुमच्या ॲपला OpenAI-सुसंगत ठेवून प्रशासनाला केंद्रीकृत करते.
ChatPDF मध्ये पारंगत कसे व्हावे: घनदाट दस्तऐवजांमधून जलद माहिती मिळवा

जलद आणि अचूक दस्तऐवजांसाठी सर्वोत्तम X ऑटो-ट्रान्सलेशन पर्याय

इराणमध्ये Samsung AI भाषांतर उपलब्ध नाही? व्यावहारिक उपाय

फारसी भाषांतर साधने: जलद आणि अचूक कामासाठी व्यावहारिक मार्गदर्शक

सखोल, उद्धृत संशोधनासाठी सर्वोत्तम Grok पर्याय

AI इमेज जनरेटरची टॉप 15 वैशिष्ट्ये जी तुम्ही खरोखर वापरू शकाल