What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Jinsi ya Kutumia LiteLLM: Mwongozo wa Kivitendo na Mifano, Vidokezo vya Kitaalamu, na Utiririshaji wa Kazi wa Ulimwengu Halisi

Ikiwa umewahi kutamani kila API ya modeli ifanye kazi kama ya OpenAI, utaipenda LiteLLM. Ni lango jepesi linalokuruhusu kupiga simu zaidi ya 100+ LLM kwa kutumia kiolesura kimoja kinachooana na OpenAI—ndani ya nchi katika msimbo au kupitia proksi kuu unayoweza kushiriki katika timu. Katika mafunzo haya, tutapitia usakinishaji, matumizi ya kimsingi na ya hali ya juu, utiririshaji, ulandanishaji, majaribio upya, uwekaji akiba, ufuatiliaji wa gharama, na kupeleka proksi ya LiteLLM na vizuizi na uelekezaji. Pia tutajumuisha mifano ya Python na JavaScript na mifumo ya ulimwengu halisi.

Inafaa kuangazia: ikiwa unataka njia ya haraka ya kuunda vichocheo, kuuliza maswali katika modeli nyingi, na kupanga matokeo, Sider.AI inaweza kuwa msaidizi muhimu kwa utafiti na urudiaji wakati unaunganisha mrundikano wako unaotegemea LiteLLM. Inakamilisha utiririshaji wako wa kazi kwa kukusaidia kulinganisha matokeo na kuboresha vichocheo kabla ya kuvikodisha.

Tutachukua njia ya kivitendo na inayoelekezwa kwa suluhisho, ili uweze kunakili-bandika na kusafirisha.

LiteLLM ni nini (na Kwa Nini Timu Huutumia)

API moja kwa modeli nyingi: Piga simu Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock, na zaidi kwa kutumia vitendaji vya mtindo wa OpenAI.

Njia mbili za kuitumia:

SDK za Mteja (Python/JS): Matumizi ya haraka katika hati, seva, madaftari.

Proksi (Lango la LLM): Huduma kuu ya uelekezaji, uthibitishaji, uwekaji kumbukumbu, udhibiti wa gharama, na uwezo wa kuona.

Uoanifu wa moja kwa moja: Badilisha modeli bila kuandika upya programu yako.

Vipengele vya uendeshaji: Majaribio upya, muda wa kumalizika, utiririshaji, ulandanishaji, uwekaji akiba, ufuatiliaji, na utoaji wa ripoti ya gharama nje ya boksi.

Ikiwa ndio kwanza unaanza, pitia hati rasmi za Kuanza ili upate mfumo wa haraka wa akili. Kwa mifano ya moja kwa moja, mafunzo ya DataCamp ni mwandani mzuri na msimbo wa hatua kwa hatua. Ikiwa unapendelea video, pia kuna kozi fupi ya mwanzo.

Mwanzo wa Haraka: Sakinisha na Simu Yako ya Kwanza

Sakinisha

# Python
pip install litellm
# Node.js
npm install litellm

Vigezo vya Mazingira

# Mfano: kutumia OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Ukamilishaji Mdogo wa Gumzo

from litellm import completion
resp = completion(
model="gpt-4o-mini", # or "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Utiririshaji, Zana, na Hali ya JSON
### Utiririshaji wa Majibu
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Gharama na Matumizi ya Tokeni
LiteLLM inaweza kufuatilia matumizi ya tokeni na kukadiria gharama kwa kila ombi, modeli, au mradi. Ukiwa na proksi, unaweza kuhamisha matumizi kwenye kumbukumbu, dashibodi, au sinki ya bili. Hii ni muhimu sana unapochanganya wachuuzi na bei tofauti.
---
## Proksi ya LiteLLM (Lango la LLM)
Ikiwa wewe ni timu au jukwaa, proksi ndiyo nguvu kuu halisi: huduma kuu iliyo na uelekezaji, uthibitishaji, vikomo vya viwango, uwekaji kumbukumbu, na uwezo wa kuona. Unashirikiana nayo kwa kutumia kiolesura cha OpenAI API ili msimbo wako wa programu ubadilike kidogo.
### Anzisha Proksi
```bash
# uendeshaji rahisi zaidi wa ndani
litellm --port 4000

Kwa chaguo-msingi, huweka wazi vituo vinavyooana na OpenAI kama vile /v1/chat/completions. Elekeza mteja wako aliyepo wa OpenAI kwa ` na umemaliza.

Sanidi Watoaji na Funguo

Unda config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Endesha na usanidi:

litellm --config config.yaml --port 4000

Tumia Proksi kutoka OpenAI SDKs (Hakuna Mabadiliko ya Msimbo)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Uelekezaji wa Hali ya Juu: Muda wa Latency, Gharama, au Uaminifu
Unaweza kutekeleza mikakati ya uelekezaji kama vile:
- Mzunguko wa mizunguko iliyopimwa kwa A/B models
- Muda wa chini kabisa wa latency kwanza kwa eneo
- Uelekezaji unaozingatia gharama kwa vituo visivyo muhimu
- Kurudi nyuma-juu-ya-hitilafu/majaribio upya katika watoaji
Ukiwa na sera ya router, unaweza kusema "pendelea bei rahisi, rudisha nyuma kwa premium kwa vichocheo vigumu." Hii inatoa upatikanaji wa juu na bajeti zinazotabirika.
---
## Vizurizi, Usuluhishi, na Usalama
Ongeza programu ya kati ya usindikaji kabla na baada ya kusafisha PII, kutekeleza vichungi vya usalama, au kusuluhisha matokeo kabla ya kurudi kwa wateja. Unganisha usuluhishi asili wa mtoa huduma (mfano, OpenAI, Google) na ukaguzi wako wa sera mwenyewe katika proksi. Mfano: hitaji uthibitishaji wa schema ya JSON na uombe tena ikiwa batili.
---
## Uwezo wa Kuona na Uwekaji Kumbukumbu
- Wezesha uwekaji kumbukumbu wa ombi/jibu na urekebishaji.
- Hamisha metriki kwa Prometheus/Grafana au APM yako.
- Fuatilia muda wa latency, tokeni, na gharama kwa kila kituo na mtumiaji.
Hii inabadilisha "bahati nasibu ya modeli" kuwa huduma inayodhibitiwa na SLOs na bajeti.
---
## Mifumo ya Matumizi ya Ulimwengu Halisi
1) Ustahimilivu wa wachuuzi wengi
- Msingi: modeli ya haraka/bei rahisi; Rudisha nyuma: modeli ya usahihi wa hali ya juu kwenye 429/5xx.
- Faida: muda bora wa kufanya kazi, udhibiti wa gharama, na ubora thabiti.
2) Maboresho ya modeli ya bendera ya kipengele
- Tumia uzani wa router kuweka kanari modeli mpya kwa 5% ya trafiki; fuatilia metriki; ongeza kasi wakati thabiti.
3) Viwango vya bidhaa
- Kiwango cha bure kimeelekezwa kwa modeli ndogo; Kiwango cha Pro kwa modeli za premium.
4) Sajili na violezo vya haraka
- Kati maagizo katika proksi ili huduma zirithi maboresho bila kupelekwa tena.
5) Bili na bajeti za timu
- Fuatilia matumizi kwa kila ufunguo wa API; tekeleza vikomo laini na vigumu kwa kila timu au bidhaa.
---
## Orodha ya Ukaguzi wa Usalama na Uzingatiaji
- Hifadhi funguo za mtoa huduma katika kidhibiti chako cha siri; rejelea kupitia vigezo vya env katika usanidi.
- Washa urekebishaji wa ombi na usafishaji wa PII katika kumbukumbu.
- Tumia funguo za API kwa kila huduma kwa proksi; zungusha mara kwa mara.
- Weka vikomo vya viwango na upendeleo kwa upana wa shirika.
- Ongeza orodha za kuruhusu/kukataa kwa modeli na vituo.
---
## Utatuzi: Marekebisho ya Haraka
- "Haijaidhinishwa" kupitia proksi: Angalia `auth.api_keys` na kwamba mteja wako anatumia `base_url` + ufunguo sahihi.
- Model haipatikani: Hakikisha `model_list` ina jina rafiki unaloita.
- Muda wa kumalizika: Ongeza `timeout` au uelekeze kwa eneo la mtoa huduma la latency ya chini.
- Matokeo ya ajabu: Washa schema ya JSON + uthibitishaji; ongeza majaribio upya na kurudi nyuma.
- Ongezeko la gharama: Washa uwekaji akiba; elekeza trafiki nyingi kwa modeli za bei rahisi; weka upendeleo kwa kila ufunguo.
Kwa uingiaji wa kina na vipengele vya hivi karibuni, hati rasmi husasishwa mara kwa mara na inafaa kuweka alama. Mafunzo kama mwongozo wa DataCamp ni nzuri kwa mifumo ya moja kwa moja, na video ya kozi fupi ya mwanzo inaweza kukusaidia kuona dhana katika vitendo.
---
## Unganisha Yote Pamoja: Rejelea Mfumo wa Programu (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### Maswali Yanayoulizwa Mara kwa Mara
Q1:LiteLLM ni nini na kwa nini uitumie badala ya SDK za moja kwa moja za watoa huduma?
LiteLLM ni lango linalooana na OpenAI kwa 100+ LLM, linalokupa API moja na mfumo mmoja wa akili. Inapunguza kufungiwa kwa mchuuzi, hurahisisha uelekezaji, na huongeza vipengele vya ops kama vile uwekaji akiba, majaribio upya, na ufuatiliaji wa gharama.
Q2:Ninawezaje kutumia LiteLLM na OpenAI SDK?
Elekeza URL ya msingi ya SDK kwa proksi ya LiteLLM na utumie ufunguo wako wa API ya proksi. Msimbo wako unaweza kubaki sawa wakati proksi inabadilisha watoa huduma au modeli nyuma ya pazia.
Q3:Je, LiteLLM inaweza kutiririsha majibu na kurudisha JSON?
Ndiyo. Tumia `stream=True` kupata mitiririko ya tokeni, na `response_format` na schema ya JSON ili kutekeleza matokeo yaliyopangwa katika watoa huduma.
Q4:Ninawezaje kudhibiti gharama katika watoa huduma tofauti wa LLM?
Washa uwekaji kumbukumbu wa matumizi na ukadiriaji wa gharama, ongeza uwekaji akiba, weka vikomo vya viwango, na uelekeze trafiki nyingi kwa modeli za bei rahisi kupitia proksi. Fuatilia na dashibodi kwa bajeti na SLOs.
Q5:Je, LiteLLM inafaa kwa timu za uzalishaji?
Ndiyo. Proksi hutoa uthibitishaji, vikomo vya viwango, uelekezaji, uwezo wa kuona, na programu ya kati ya usalama. Imeundwa kama lango la LLM ambalo huweka kati utawala huku ikiweka programu yako kuwa inaoana na OpenAI.

Jinsi ya Kutumia LiteLLM: Mwongozo wa Kivitendo na Mifano, Vidokezo vya Kitaalamu, na Utaratibu wa Kazi Halisi