What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

LiteLLM कसे वापरावे: उदाहरणे, प्रो टिप्स आणि वास्तविक-जगातील वर्कफ्लो असलेले एक व्यावहारिक मार्गदर्शक

जर तुमची इच्छा असेल की प्रत्येक मॉडेल API ने OpenAI प्रमाणे वर्तन करावे, तर तुम्हाला LiteLLM खूप आवडेल. हे एक हलके गेटवे आहे जे तुम्हाला 100+ LLMs ला एकाच, OpenAI- सुसंगत इंटरफेससह कॉल करू देते—स्थानिक पातळीवर कोडमध्ये किंवा एका मध्यवर्ती प्रॉक्सीद्वारे जे तुम्ही टीममध्ये शेअर करू शकता. या ट्युटोरियलमध्ये, आपण इंस्टॉलेशन, मूलभूत आणि प्रगत वापर, स्ट्रीमिंग, बॅचिंग, रिट्राय, कॅशिंग, कॉस्ट ट्रॅकिंग आणि गार्डरेल्स आणि राउटिंगसह LiteLLM प्रॉक्सी तैनात करणे याबद्दल माहिती घेणार आहोत. आम्ही Python आणि JavaScript उदाहरणे आणि वास्तविक-जगातील पॅटर्नचा देखील समावेश करू.

हे लक्षात घेण्यासारखे आहे: जर तुम्हाला प्रॉम्प्ट्सचे प्रोटोटाइप बनवण्याचा, अनेक मॉडेल्समध्ये प्रश्न विचारण्याचा आणि निकालांचे आयोजन करण्याचा जलद मार्ग हवा असेल, तर Sider.AI हे तुमच्या LiteLLM-आधारित स्टॅक कनेक्ट करताना संशोधन आणि पुनरावृत्तीसाठी एक उपयुक्त साथीदार ठरू शकते. हे आउटपुटची तुलना करून आणि तुम्ही ते कोडमध्ये रूपांतरित करण्यापूर्वी प्रॉम्प्ट्स परिष्कृत करण्यात मदत करून तुमच्या वर्कफ्लोला पूरक ठरते.

आम्ही एक व्यावहारिक आणि सोल्यूशन-ओरिएंटेड मार्ग निवडणार आहोत, जेणेकरून तुम्ही कॉपी-पेस्ट करून वापरू शकाल.

LiteLLM म्हणजे काय (आणि टीम ते का वापरतात)

अनेक मॉडेल्ससाठी एक API: OpenAI-शैलीतील फंक्शन्स वापरून Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock आणि इतर अनेक मॉडेल्सना कॉल करा.

ते वापरण्याचे दोन मार्ग:

क्लायंट SDK (Python/JS): स्क्रिप्ट, सर्व्हर, नोटबुकमध्ये त्वरित वापर.

प्रॉक्सी (LLM गेटवे): राउटिंग, ऑथ, लॉगिंग, कॉस्ट कंट्रोल्स आणि ऑब्जर्वेबिलिटीसाठी केंद्रीकृत सेवा.

ड्रॉप-इन सुसंगतता: तुमचे ॲप पुन्हा न लिहिता मॉडेल्स बदला.

ऑपरेशनल वैशिष्ट्ये: रिट्राय, टाइमआउट, स्ट्रीमिंग, बॅचिंग, कॅशिंग, ट्रेसिंग आणि कॉस्ट रिपोर्टिंग आउट ऑफ द बॉक्स.

जर तुम्ही नुकतीच सुरुवात करत असाल, तर जलद मानसिक मॉडेलसाठी अधिकृत Getting Started डॉक्स मधून माहिती मिळवा. प्रत्यक्ष उदाहरणांसाठी, DataCamp ट्युटोरियल हे स्टेप-बाय-स्टेप कोड असलेले एक उत्तम साथीदार आहे. जर तुम्हाला व्हिडिओ आवडत असेल, तर बिगिनर-फ्रेंडली क्रॅश कोर्स देखील आहे.

क्विक स्टार्ट: इंस्टॉल करा आणि तुमचा पहिला कॉल करा

इंस्टॉल

# Python
pip install litellm
# Node.js
npm install litellm

पर्यावरण व्हेरिएबल्स

# उदाहरण: OpenAI + Anthropic + Mistral वापरणे
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: मिनिमल चॅट कंप्लीशन

from litellm import completion
resp = completion(
model="gpt-4o-mini", # किंवा "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## स्ट्रीमिंग, टूल्स आणि JSON मोड
### स्ट्रीमिंग प्रतिसाद
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### खर्च आणि टोकन वापर
LiteLLM टोकन वापर ट्रॅक करू शकते आणि प्रति विनंती, मॉडेल किंवा प्रोजेक्ट खर्चचा अंदाज लावू शकते. प्रॉक्सीसह, तुम्ही वापर लॉग, डॅशबोर्ड किंवा बिलिंग सिंकमध्ये एक्सपोर्ट करू शकता. जेव्हा तुम्ही वेगवेगळ्या किंमती असलेले विक्रेते मिक्स करता तेव्हा हे खूप महत्वाचे आहे.
---
## LiteLLM प्रॉक्सी (LLM गेटवे)
जर तुम्ही टीम किंवा प्लॅटफॉर्म असाल, तर प्रॉक्सी हे खरे सुपरपॉवर आहे: राउटिंग, ऑथ, रेट लिमिट्स, लॉगिंग आणि ऑब्जर्वेबिलिटी असलेली एक मध्यवर्ती सेवा. तुम्ही OpenAI API सरफेस वापरून तिच्याशी संवाद साधता त्यामुळे तुमच्या ॲप कोडमध्ये फारसा बदल होत नाही.
### प्रॉक्सी सुरू करा
```bash
# सर्वात सोपे लोकल रन
litellm --port 4000

डीफॉल्टनुसार, हे /v1/chat/completions सारखे OpenAI-सुसंगत एंडपॉइंट्स उघड करते. तुमचा विद्यमान OpenAI क्लायंट ` कडे निर्देशित करा आणि तुम्ही तयार आहात.

प्रदाते आणि Keys कॉन्फिगर करा

config.yaml तयार करा:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

कॉन्फिगसह चालवा:

litellm --config config.yaml --port 4000

OpenAI SDKs मधून प्रॉक्सी वापरा (कोणतेही कोड बदल न करता)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## प्रगत राउटिंग: लेटेंसी, खर्च किंवा विश्वसनीयता
तुम्ही राउटिंग स्ट्रॅटेजी लागू करू शकता जसे की:
- A/B मॉडेल्ससाठी भारित राउंड-रॉबिन
- प्रदेशानुसार सर्वात कमी लेटेंसी-फर्स्ट
- नॉन-क्रिटिकल एंडपॉइंट्ससाठी खर्च-जागरूक राउटिंग
- एरर आल्यास फॉलबॅक/प्रदात्यांमध्ये रिट्राय
router पॉलिसीसह, तुम्ही म्हणू शकता "स्वस्तला प्राधान्य द्या, कठीण प्रॉम्प्ट्ससाठी प्रीमियमवर फॉलबॅक करा." हे उच्च उपलब्धता आणि अंदाजित बजेट देते.
---
## गार्डरेल्स, मॉडरेशन आणि सुरक्षा
क्लायंटला परत करण्यापूर्वी PII काढण्यासाठी, सुरक्षा फिल्टर लागू करण्यासाठी किंवा आउटपुट मॉडरेट करण्यासाठी प्री- आणि पोस्ट-प्रोसेसिंग मिडलवेअर जोडा. प्रॉक्सीमध्ये तुमच्या स्वतःच्या पॉलिसी चेक्ससह प्रदाता-नेटिव्ह मॉडरेशन (उदा. OpenAI, Google) एकत्र करा. उदाहरण: JSON स्कीमा व्हॅलिडेशन आवश्यक आहे आणि अवैध असल्यास पुन्हा विचारा.
---
## ऑब्जर्वेबिलिटी आणि लॉगिंग
- रिडक्शनसह विनंती/प्रतिक्रिया लॉगिंग सक्षम करा.
- Prometheus/Grafana किंवा तुमच्या APM मध्ये मेट्रिक्स एक्सपोर्ट करा.
- एंडपॉइंट आणि वापरकर्त्यानुसार लेटेंसी, टोकन आणि खर्च ट्रेस करा.
हे "मॉडेल रूले" ला SLOs आणि बजेटसह व्यवस्थापित सेवेत रूपांतरित करते.
---
## वास्तविक-जगातील वापर पॅटर्न
1) मल्टी-व्हेंडर लवचिकता
- प्रायमरी: जलद/स्वस्त मॉडेल; फॉलबॅक: 429/5xx वर उच्च-अचूकता मॉडेल.
- फायदे: चांगली अपटाइम, खर्च नियंत्रण आणि स्थिर गुणवत्ता.
2) फीचर फ्लॅग मॉडेल अपग्रेड
- 5% ट्रॅफिकवर नवीन मॉडेल कॅनरी करण्यासाठी router वेट्स वापरा; मेट्रिक्सचे निरीक्षण करा; स्थिर झाल्यावर वाढवा.
3) उत्पादन स्तर
- लहान मॉडेल्सवर रूट केलेला फ्री स्तर; प्रीमियम मॉडेल्सवर प्रो स्तर.
4) प्रॉम्प्ट रजिस्ट्री आणि टेम्पलेट्स
- प्रॉम्प्ट्स प्रॉक्सीमध्ये सेंट्रलाइज करा जेणेकरून सेवांना रीडिप्लॉयशिवाय सुधारणा वारसा मिळतील.
5) टीम बिलिंग आणि बजेट
- API key नुसार खर्च मागोवा; टीम किंवा उत्पादन प्रति सॉफ्ट आणि हार्ड लिमिट लागू करा.
---
## सुरक्षा आणि अनुपालन चेकलिस्ट
- तुमचा सीक्रेट मॅनेजरमध्ये प्रदाता keys साठवा; कॉन्फिगमध्ये env vars द्वारे संदर्भ द्या.
- लॉगमध्ये विनंती रिडक्शन आणि PII स्क्रबिंग सुरू करा.
- प्रॉक्सीसाठी प्रति-सर्व्हिस API keys वापरा; नियमितपणे रोटेट करा.
- ऑर्ग-वाइड रेट लिमिट्स आणि कोटा सेट करा.
- मॉडेल्स आणि एंडपॉइंट्ससाठी allowlists/denylists जोडा.
---
## समस्या निवारण: जलद उपाय
- प्रॉक्सीद्वारे “अनधिकृत”: `auth.api_keys` आणि तुमचा क्लायंट `base_url` + योग्य key वापरतो का ते तपासा.
- मॉडेल सापडले नाही: `model_list` मध्ये तुम्ही कॉल करत असलेले फ्रेंडली नाव आहे याची खात्री करा.
- टाइमआउट्स: `timeout` वाढवा किंवा कमी-लेटेंसी प्रदाता प्रदेशात रूट करा.
- विचित्र आउटपुट: JSON स्कीमा + व्हॅलिडेशन सक्षम करा; रिट्राय आणि फॉलबॅक जोडा.
- खर्च वाढणे: कॅशिंग सुरू करा; स्वस्त मॉडेल्सवर मोठ्या प्रमाणात ट्रॅफिक रूट करा; प्रति-key कोटा सेट करा.
अधिक माहिती आणि नवीनतम वैशिष्ट्यांसाठी, अधिकृत डॉक्स वारंवार अपडेट केले जातात आणि बुकमार्क करण्यासारखे आहेत. DataCamp च्या मार्गदर्शकासारखे ट्युटोरियल प्रत्यक्ष पॅटर्नसाठी उत्तम आहेत आणि बिगिनर क्रॅश कोर्स व्हिडिओ तुम्हाला ॲक्शनमधील संकल्पना पाहण्यास मदत करू शकतात.
---
## हे सर्व एकत्र ठेवा: संदर्भ ॲप स्केलेटन (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### FAQ
Q1: LiteLLM म्हणजे काय आणि डायरेक्ट प्रदाता SDKs ऐवजी ते का वापरावे?
LiteLLM हे 100+ LLMs साठी OpenAI-सुसंगत गेटवे आहे, जे तुम्हाला एक API आणि एक मानसिक मॉडेल देते. हे विक्रेता लॉक-इन कमी करते, राउटिंग सोपे करते आणि कॅशिंग, रिट्राय आणि खर्च ट्रॅकिंग यांसारखी ऑप्स वैशिष्ट्ये जोडते.
Q2: मी OpenAI SDK सह LiteLLM कसे वापरू?
SDK चा बेस URL LiteLLM प्रॉक्सीकडे निर्देशित करा आणि तुमची प्रॉक्सी API key वापरा. तुमचा कोड तोच राहू शकतो तर प्रॉक्सी पडद्यामागे प्रदाते किंवा मॉडेल्स बदलतो.
Q3: LiteLLM प्रतिसाद स्ट्रीम करू शकते आणि JSON परत करू शकते?
होय. टोकन स्ट्रीम मिळवण्यासाठी `stream=True` वापरा आणि प्रदात्यांमध्ये संरचित आउटपुट लागू करण्यासाठी JSON स्कीमासह `response_format` वापरा.
Q4: मी वेगवेगळ्या LLM प्रदात्यांमध्ये खर्च कसा नियंत्रित करू?
वापर लॉगिंग आणि खर्च अंदाज सक्षम करा, कॅशिंग जोडा, रेट लिमिट सेट करा आणि प्रॉक्सीद्वारे स्वस्त मॉडेल्सवर मोठ्या प्रमाणात ट्रॅफिक रूट करा. बजेट आणि SLOs साठी डॅशबोर्डसह निरीक्षण करा.
Q5: LiteLLM उत्पादन टीमसाठी योग्य आहे का?
होय. प्रॉक्सी ऑथ, रेट लिमिट, राउटिंग, ऑब्जर्वेबिलिटी आणि सुरक्षा मिडलवेअर प्रदान करते. हे LLM गेटवे म्हणून डिझाइन केलेले आहे जे तुमच्या ॲपला OpenAI-सुसंगत ठेवून प्रशासनाला केंद्रीकृत करते.

LiteLLM कसे वापरावे: उदाहरणे, प्रो टिप्स आणि वास्तविक-जगातील कार्यप्रवाहांचे एक प्रात्यक्षिक मार्गदर्शन