What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

LiteLLM નો ઉપયોગ કેવી રીતે કરવો: ઉદાહરણો, પ્રો ટિપ્સ અને વાસ્તવિક-વિશ્વ વર્કફ્લો સાથેની વ્યવહારિક માર્ગદર્શિકા

જો તમે ક્યારેય એવી ઇચ્છા કરી હોય કે દરેક મોડેલ API OpenAI જેવું વર્તન કરે, તો તમને LiteLLM ગમશે. આ એક લાઇટવેઇટ ગેટવે છે જે તમને એક જ, OpenAI- સુસંગત ઇન્ટરફેસ સાથે 100+ LLM ને કૉલ કરવા દે છે - કોડમાં સ્થાનિક રીતે અથવા કેન્દ્રીય પ્રોક્સી દ્વારા જે તમે ટીમોમાં શેર કરી શકો છો. આ ટ્યુટોરીયલમાં, અમે ઇન્સ્ટોલેશન, મૂળભૂત અને અદ્યતન વપરાશ, સ્ટ્રીમિંગ, બેચિંગ, પુનઃપ્રયાસો, કેશીંગ, ખર્ચ ટ્રેકિંગ અને ગાર્ડ્રેલ્સ અને રૂટીંગ સાથે LiteLLM પ્રોક્સીને જમાવવાની બાબતો વિશે જાણીશું. અમે Python અને JavaScript ઉદાહરણો અને વાસ્તવિક-વિશ્વ પેટર્નનો પણ સમાવેશ કરીશું.

નોંધનીય બાબત: જો તમે પ્રોમ્પ્ટ્સનો પ્રોટોટાઇપ બનાવવા, બહુવિધ મોડેલ્સમાં પ્રશ્નો પૂછવા અને પરિણામોને ગોઠવવાની ઝડપી રીત ઇચ્છતા હો, તો Sider.AI તમારી LiteLLM-આધારિત સ્ટેકને જોડતી વખતે સંશોધન અને પુનરાવર્તન માટે મદદરૂપ સાથી બની શકે છે. તે આઉટપુટની તુલના કરવામાં અને તમે તેને કોડિફાઇ કરો તે પહેલાં પ્રોમ્પ્ટ્સને સુધારવામાં મદદ કરીને તમારી વર્કફ્લોને પૂરક બનાવે છે.

અમે વ્યવહારિક અને ઉકેલ-લક્ષી માર્ગ અપનાવીશું, જેથી તમે કોપી-પેસ્ટ કરી શકો અને મોકલી શકો.

LiteLLM શું છે (અને ટીમો તેનો ઉપયોગ શા માટે કરે છે)

ઘણા મોડેલો માટે એક API: OpenAI-શૈલીના કાર્યોનો ઉપયોગ કરીને Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock અને વધુને કૉલ કરો.

તેનો ઉપયોગ કરવાની બે રીતો:

ક્લાયન્ટ SDKs (Python/JS): સ્ક્રિપ્ટ્સ, સર્વર્સ, નોટબુકમાં ઝડપી વપરાશ.

પ્રોક્સી (LLM ગેટવે): રૂટીંગ, પ્રમાણીકરણ, લોગીંગ, ખર્ચ નિયંત્રણો અને અવલોકનક્ષમતા માટે કેન્દ્રિય સેવા.

ડ્રોપ-ઇન સુસંગતતા: તમારી એપ્લિકેશનને ફરીથી લખ્યા વિના મોડેલ્સને સ્વેપ કરો.

ઓપરેશનલ સુવિધાઓ: પુનઃપ્રયાસો, સમયસમાપ્તિ, સ્ટ્રીમિંગ, બેચિંગ, કેશીંગ, ટ્રેસીંગ અને ખર્ચ રિપોર્ટિંગ બોક્સની બહાર.

જો તમે હમણાં જ શરૂઆત કરી રહ્યા છો, તો ઝડપી માનસિક મોડેલ માટે સત્તાવાર પ્રારંભિક દસ્તાવેજોને ઝડપથી જોઈ લો. હેન્ડ-ઓન ઉદાહરણો માટે, DataCamp ટ્યુટોરીયલ સ્ટેપ-બાય-સ્ટેપ કોડ સાથેનો એક નક્કર સાથી છે. જો તમે વિડિયો પસંદ કરતા હો, તો શિખાઉ માણસ માટે ક્રેશ કોર્સ પણ છે.

ઝડપી શરૂઆત: ઇન્સ્ટોલ કરો અને તમારો પહેલો કૉલ કરો

ઇન્સ્ટોલ કરો

# Python
pip install litellm
# Node.js
npm install litellm

પર્યાવરણ ચલો

# ઉદાહરણ: OpenAI + Anthropic + Mistral નો ઉપયોગ કરીને
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: ન્યૂનતમ ચેટ પૂર્ણતા

from litellm import completion
resp = completion(
model="gpt-4o-mini", # અથવા "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## સ્ટ્રીમિંગ, ટૂલ્સ અને JSON મોડ
### સ્ટ્રીમિંગ પ્રતિભાવો
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### ખર્ચ અને ટોકન વપરાશ
LiteLLM ટોકન વપરાશને ટ્રેક કરી શકે છે અને વિનંતી, મોડેલ અથવા પ્રોજેક્ટ દીઠ ખર્ચનો અંદાજ લગાવી શકે છે. પ્રોક્સી સાથે, તમે વપરાશને લોગ, ડેશબોર્ડ અથવા બિલિંગ સિંક પર નિકાસ કરી શકો છો. જ્યારે તમે વિવિધ કિંમતો સાથે વિક્રેતાઓને મિક્સ કરો છો ત્યારે આ અમૂલ્ય છે.
---
## LiteLLM પ્રોક્સી (LLM ગેટવે)
જો તમે ટીમ અથવા પ્લેટફોર્મ છો, તો પ્રોક્સી એ વાસ્તવિક મહાસત્તા છે: રૂટીંગ, પ્રમાણીકરણ, દર મર્યાદાઓ, લોગીંગ અને અવલોકનક્ષમતા સાથેની કેન્દ્રિય સેવા. તમે OpenAI API સપાટીનો ઉપયોગ કરીને તેની સાથે ક્રિયાપ્રતિક્રિયા કરો છો જેથી તમારી એપ્લિકેશન કોડ ભાગ્યે જ બદલાય.
### પ્રોક્સી શરૂ કરો
```bash
# સૌથી સરળ સ્થાનિક રન
litellm --port 4000

મૂળભૂત રીતે, તે /v1/chat/completions જેવા OpenAI-સુસંગત અંતિમ બિંદુઓને ઉજાગર કરે છે. તમારા હાલના OpenAI ક્લાયન્ટને ` પર પોઈન્ટ કરો અને તમે સેટ છો.

પ્રદાતાઓ અને કીઓ રૂપરેખાંકિત કરો

config.yaml બનાવો:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

રૂપરેખાંકન સાથે ચલાવો:

litellm --config config.yaml --port 4000

OpenAI SDKs થી પ્રોક્સીનો ઉપયોગ કરો (કોઈ કોડ ફેરફારો નહીં)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## અદ્યતન રૂટીંગ: વિલંબતા, ખર્ચ અથવા વિશ્વસનીયતા
તમે રૂટીંગ વ્યૂહરચનાઓ અમલમાં મૂકી શકો છો જેમ કે:
- A/B મોડેલ્સ માટે વેઇટેડ રાઉન્ડ-રોબિન
- પ્રદેશ દ્વારા સૌથી ઓછી વિલંબતા-પ્રથમ
- બિન-જટિલ અંતિમ બિંદુઓ માટે ખર્ચ-સભાન રૂટીંગ
- પ્રદાતાઓ વચ્ચે ભૂલ પર ફોલબેક/પુનઃપ્રયાસ
રાઉટર નીતિ સાથે, તમે કહી શકો છો કે "સસ્તાને પ્રાધાન્ય આપો, મુશ્કેલ પ્રોમ્પ્ટ્સ માટે પ્રીમિયમ પર પાછા પડો." આ ઉચ્ચ ઉપલબ્ધતા અને અનુમાનિત બજેટ પ્રદાન કરે છે.
---
## ગાર્ડ્રેલ્સ, મધ્યસ્થતા અને સલામતી
PII ને દૂર કરવા, સલામતી ફિલ્ટર્સ લાગુ કરવા અથવા ક્લાયન્ટ્સને પરત કરતા પહેલાં આઉટપુટને મધ્યસ્થી કરવા માટે પ્રી- અને પોસ્ટ-પ્રોસેસિંગ મિડલવેર ઉમેરો. તમારી પોતાની નીતિ તપાસ સાથે પ્રદાતા-મૂળ મધ્યસ્થતા (દા.ત., OpenAI, Google) ને પ્રોક્સીમાં જોડો. ઉદાહરણ: JSON સ્કીમા માન્યતાની જરૂર છે અને જ્યારે અમાન્ય હોય ત્યારે ફરીથી પૂછો.
---
## અવલોકનક્ષમતા અને લોગીંગ
- રિડેક્શન સાથે વિનંતી/પ્રતિભાવ લોગીંગને સક્ષમ કરો.
- Prometheus/Grafana અથવા તમારા APM પર મેટ્રિક્સ નિકાસ કરો.
- અંતિમ બિંદુ અને વપરાશકર્તા દ્વારા વિલંબતા, ટોકન્સ અને ખર્ચને ટ્રેસ કરો.
આ "મોડેલ રૂલેટ" ને SLOs અને બજેટ્સ સાથેની સંચાલિત સેવામાં ફેરવે છે.
---
## વાસ્તવિક-વિશ્વ વપરાશ પેટર્ન
1) બહુ-વિક્રેતા સ્થિતિસ્થાપકતા
- પ્રાથમિક: ઝડપી/સસ્તું મોડેલ; ફોલબેક: 429/5xx પર ઉચ્ચ-ચોકસાઈવાળું મોડેલ.
- લાભો: વધુ સારો અપટાઇમ, ખર્ચ નિયંત્રણ અને સ્થિર ગુણવત્તા.
2) લક્ષણ ધ્વજ મોડેલ અપગ્રેડ્સ
- ટ્રાફિકના 5% સુધી નવા મોડેલને કેનેરી કરવા માટે રાઉટર વેઇટ્સનો ઉપયોગ કરો; મેટ્રિક્સ મોનિટર કરો; જ્યારે સ્થિર હોય ત્યારે રેમ્પ અપ કરો.
3) ઉત્પાદન સ્તરો
- મફત સ્તર નાના મોડેલ્સ પર રૂટ કરવામાં આવે છે; પ્રો સ્તર પ્રીમિયમ મોડેલ્સ પર.
4) પ્રોમ્પ્ટ રજિસ્ટ્રી અને નમૂનાઓ
- પ્રોક્સીમાં પ્રોમ્પ્ટ્સને કેન્દ્રિય બનાવો જેથી સેવાઓ પુનઃજમાવટ વિના સુધારાઓ વારસામાં મેળવે.
5) ટીમ બિલિંગ અને બજેટ
- API કી દ્વારા ખર્ચને ટ્રેક કરો; ટીમ અથવા ઉત્પાદન દીઠ સોફ્ટ અને હાર્ડ મર્યાદાઓ લાગુ કરો.
---
## સુરક્ષા અને પાલન ચેકલિસ્ટ
- તમારા ગુપ્ત મેનેજરમાં પ્રદાતા કીઓ સ્ટોર કરો; રૂપરેખાંકનમાં env vars દ્વારા સંદર્ભ લો.
- લોગમાં વિનંતી રિડેક્શન અને PII સ્ક્રબિંગ ચાલુ કરો.
- પ્રોક્સી માટે સેવા દીઠ API કીનો ઉપયોગ કરો; નિયમિતપણે ફેરવો.
- સંસ્થા-વ્યાપી દર મર્યાદાઓ અને ક્વોટા સેટ કરો.
- મોડેલ્સ અને અંતિમ બિંદુઓ માટે એલોલિસ્ટ્સ/ડેનીલિસ્ટ્સ ઉમેરો.
---
## મુશ્કેલીનિવારણ: ઝડપી ફિક્સ
- પ્રોક્સી દ્વારા "અનધિકૃત": `auth.api_keys` તપાસો અને ખાતરી કરો કે તમારો ક્લાયન્ટ `base_url` + સાચી કીનો ઉપયોગ કરે છે.
- મોડેલ મળ્યું નથી: ખાતરી કરો કે `model_list` માં તમે કૉલ કરી રહ્યાં છો તે મૈત્રીપૂર્ણ નામ શામેલ છે.
- સમયસમાપ્તિ: `timeout` વધારો અથવા નીચી વિલંબતાવાળા પ્રદાતા પ્રદેશ પર રૂટ કરો.
- વિચિત્ર આઉટપુટ: JSON સ્કીમા + માન્યતાને સક્ષમ કરો; પુનઃપ્રયાસો અને ફોલબેક્સ ઉમેરો.
- ખર્ચ સ્પાઇક્સ: કેશીંગ ચાલુ કરો; જથ્થાબંધ ટ્રાફિકને સસ્તા મોડેલ્સ પર રૂટ કરો; કી દીઠ ક્વોટા સેટ કરો.
ઊંડાણપૂર્વકના ડાઇવ્સ અને નવીનતમ સુવિધાઓ માટે, સત્તાવાર દસ્તાવેજો વારંવાર અપડેટ કરવામાં આવે છે અને બુકમાર્ક કરવા યોગ્ય છે. DataCamp ની માર્ગદર્શિકા જેવા ટ્યુટોરીયલ્સ હેન્ડ-ઓન પેટર્ન માટે ઉત્તમ છે, અને શિખાઉ માણસ માટે ક્રેશ કોર્સ વિડિયો તમને ક્રિયામાં વિભાવનાઓ જોવામાં મદદ કરી શકે છે.
---
## તે બધાને એકસાથે મૂકો: સંદર્ભ એપ્લિકેશન સ્કેલેટન (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### FAQ
Q1:LiteLLM શું છે અને સીધા પ્રદાતા SDKs પર તેનો ઉપયોગ શા માટે કરવો?
LiteLLM એ 100+ LLMs માટે OpenAI-સુસંગત ગેટવે છે, જે તમને એક API અને એક માનસિક મોડેલ આપે છે. તે વિક્રેતા લોક-ઇનને ઘટાડે છે, રૂટીંગને સરળ બનાવે છે અને કેશીંગ, પુનઃપ્રયાસો અને ખર્ચ ટ્રેકિંગ જેવી ઓપ્સ સુવિધાઓ ઉમેરે છે.
<a103></a104>Q2:હું OpenAI SDK સાથે LiteLLM નો ઉપયોગ કેવી રીતે કરું?
SDK ના બેઝ URL ને LiteLLM પ્રોક્સી પર પોઈન્ટ કરો અને તમારી પ્રોક્સી API કીનો ઉપયોગ કરો. તમારો કોડ સમાન રહી શકે છે જ્યારે પ્રોક્સી પડદા પાછળ પ્રદાતાઓ અથવા મોડેલ્સને સ્વેપ કરે છે.
Q3:શું LiteLLM પ્રતિભાવોને સ્ટ્રીમ કરી શકે છે અને JSON પરત કરી શકે છે?
હા. ટોકન સ્ટ્રીમ્સ મેળવવા માટે `stream=True` નો ઉપયોગ કરો અને પ્રદાતાઓ વચ્ચે માળખાગત આઉટપુટ લાગુ કરવા માટે JSON સ્કીમા સાથે `response_format` નો ઉપયોગ કરો.
Q4:હું વિવિધ LLM પ્રદાતાઓ વચ્ચે ખર્ચને કેવી રીતે નિયંત્રિત કરું?
વપરાશ લોગીંગ અને ખર્ચ અંદાજને સક્ષમ કરો, કેશીંગ ઉમેરો, દર મર્યાદાઓ સેટ કરો અને પ્રોક્સી દ્વારા જથ્થાબંધ ટ્રાફિકને સસ્તા મોડેલ્સ પર રૂટ કરો. બજેટ્સ અને SLOs માટે ડેશબોર્ડ્સ સાથે મોનિટર કરો.
Q5:શું LiteLLM ઉત્પાદન ટીમો માટે યોગ્ય છે?
હા. પ્રોક્સી પ્રમાણીકરણ, દર મર્યાદાઓ, રૂટીંગ, અવલોકનક્ષમતા અને સલામતી મિડલવેર પ્રદાન કરે છે. તે LLM ગેટવે તરીકે ડિઝાઇન કરવામાં આવ્યું છે જે તમારા એપ્લિકેશનને OpenAI-સુસંગત રાખીને સંચાલનને કેન્દ્રિય બનાવે છે.

LiteLLM નો ઉપયોગ કેવી રીતે કરવો: ઉદાહરણો, પ્રો ટીપ્સ અને રિયલ-વર્લ્ડ વર્કફ્લો સાથેની વ્યવહારુ માર્ગદર્શિકા