What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

LiteLLMን እንዴት መጠቀም እንደሚቻል፡ በተግባራዊ ምሳሌዎች፣ በባለሙያ ምክሮች እና በእውነተኛ ዓለም የሥራ ፍሰቶች መመሪያ

ሁሉም የሞዴል ኤፒአይዎች እንደ OpenAI አይነት ባህሪ እንዲኖራቸው ከፈልገህ ከሆነ LiteLLMን ትወደዋለህ። ከአንድ የOpenAI-ተኳሃኝ በይነገጽ ጋር 100+ ኤልኤልኤምዎችን እንድትጠቀም የሚያስችል ቀላል ክብደት ያለው ጌትዌይ ነው—በኮድ ውስጥ በአካባቢህ ወይም በቡድኖችህ መካከል ልታጋራው በምትችለው ማዕከላዊ ፕሮክሲ በኩል። በዚህ ትምህርት፣ ጭነትን፣ መሰረታዊ እና የላቀ አጠቃቀምን፣ ዥረትን፣ ባችንግን፣ ድጋሚ ሙከራዎችን፣ መሸጎጫን፣ የወጪ ክትትልን እና የLiteLLM ፕሮክሲን ከጥበቃዎች እና ራውቲንግ ጋር ማሰማራትን እንመለከታለን። እንዲሁም የPython እና JavaScript ምሳሌዎችን እና የእውነተኛ ዓለም አጠቃቀም ሁኔታዎችን አካተናል።

ልብ ሊባል የሚገባው ነገር፡ ፈጣን የፕሮቶታይፕ ጥያቄዎችን ለመፍጠር፣ በተለያዩ ሞዴሎች ላይ ጥያቄዎችን ለመጠየቅ እና ውጤቶችን ለማደራጀት ከፈለክ፣ Sider.AI በLiteLLM ላይ የተመሰረተ ቁልልህን እየተጠቀምክ እያለ ለምርምር እና ድግግሞሽ የሚረዳ አጋዥ ሊሆን ይችላል። የውጤት ንጽጽሮችን እንድታደርግ እና ኮድ ከማድረግህ በፊት ጥያቄዎችን እንድታሻሽል በመርዳት የስራ ፍሰትህን ያሟላልሃል።

መቅዳት እና መላክ እንድትችል በተግባራዊ እና በመፍትሄ ላይ ያተኮረ መንገድ እንሄዳለን።

LiteLLM ምንድን ነው (እና ለምን ቡድኖች ይጠቀሙታል)

ለብዙ ሞዴሎች አንድ ኤፒአይ፡ በአንትሮፒክ፣ OpenAI፣ Google፣ Azure፣ Cohere፣ Mistral፣ Bedrock እና ሌሎችም ላይ የOpenAI-style ተግባራትን በመጠቀም ይደውሉ።

የሚጠቀሙባቸው ሁለት መንገዶች:

የደንበኛ SDKዎች (Python/JS)፡ በስክሪፕቶች፣ በአገልጋዮች፣ በኖትቡኮች ውስጥ ፈጣን አጠቃቀም።

ፕሮክሲ (LLM ጌትዌይ)፡ ራውቲንግ፣ ማረጋገጫ፣ ሎግ ማድረግ፣ የወጪ ቁጥጥር እና ምልከታ ለማዕከላዊ አገልግሎት።

ተኳሃኝነትን ጣል (Drop-in compatibility)፡ መተግበሪያህን እንደገና ሳይጽፉ ሞዴሎችን ይቀያይሩ።

የስራ ባህሪያት፡ እንደገና መሞከር፣ የጊዜ ማብቂያዎች፣ ዥረት፣ ባችንግ፣ መሸጎጫ፣ ፍለጋ እና የወጪ ሪፖርት ከሳጥን ውጭ።

አሁን እየጀመርክ ከሆነ፣ ለአጭር የአእምሮ ሞዴል ኦፊሴላዊውን ጅምር ሰነዶች ቃኝ። በተግባራዊ ምሳሌዎች፣ የDataCamp ትምህርት ደረጃ በደረጃ ኮድ ያለው ጠንካራ ጓደኛ ነው። ቪዲዮን የምትመርጥ ከሆነ፣ ለጀማሪዎች ተስማሚ የሆነ አጭር ኮርስም አለ።

ፈጣን ጅምር፡ ጫን እና የመጀመሪያ ጥሪህን አድርግ

ጫን

# Python
pip install litellm
# Node.js
npm install litellm

የአካባቢ ተለዋዋጮች

# ምሳሌ፡ OpenAI + Anthropic + Mistralን መጠቀም
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: አነስተኛ የውይይት ማጠናቀቅ

from litellm import completion
resp = completion(
model="gpt-4o-mini", # ወይም "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## ዥረት፣ መሳሪያዎች እና JSON ሁነታ
### ምላሾችን በዥረት መልቀቅ
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### ወጪ እና ማስመሰያ አጠቃቀም
LiteLLM የቶከን አጠቃቀምን መከታተል እና ለእያንዳንዱ ጥያቄ፣ ሞዴል ወይም ፕሮጀክት ወጪን መገመት ይችላል። በፕሮክሲ አማካኝነት አጠቃቀምን ወደ ምዝግብ ማስታወሻዎች፣ ዳሽቦርዶች ወይም የክፍያ ማስመጫ መላክ ይችላሉ። ይህ የተለያዩ የዋጋ አወጣጥ ያላቸውን አቅራቢዎች ስትቀላቅሉ በጣም ጠቃሚ ነው።
---
## የLiteLLM ፕሮክሲ (LLM መግቢያ በር)
ቡድን ወይም መድረክ ከሆንክ ፕሮክሲው እውነተኛው ልዕለ ኃይል ነው፡ ራውቲንግ፣ ማረጋገጫ፣ የፍጥነት ገደቦች፣ ምዝግብ ማስታወሻ እና ምልከታ ያለው ማዕከላዊ አገልግሎት ነው። የመተግበሪያህ ኮድ ብዙም እንዳይቀየር የOpenAI API ገጽን በመጠቀም ከእሱ ጋር ትገናኛለህ።
### ፕሮክሲውን ያስጀምሩ
```bash
# ቀላሉ የአካባቢ ማስኬጃ
litellm --port 4000

በነባሪ፣ እንደ /v1/chat/completions ያሉ OpenAI-ተኳሃኝ የመጨረሻ ነጥቦችን ያጋልጣል። ያለህን የOpenAI ደንበኛ ወደ ` በመጠቆም ተዘጋጅተሃል።

አቅራቢዎችን እና ቁልፎችን ያዋቅሩ

config.yaml ይፍጠሩ:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

በማዋቀር አሂድ:

litellm --config config.yaml --port 4000

ፕሮክሲውን ከOpenAI SDKs ተጠቀም (ምንም የኮድ ለውጥ የለም)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## የላቀ ራውቲንግ፡ ድብቅነት፣ ወጪ ወይም አስተማማኝነት
እንደነዚህ ያሉ የራውቲንግ ስልቶችን መተግበር ትችላለህ:
- ሞዴሎችን A/B ለማድረግ ክብደት ያለው ዙር-ሮቢን
- በክልል ዝቅተኛ-ድብቅነት-መጀመሪያ
- ወሳኝ ላልሆኑ የመጨረሻ ነጥቦች የወጪ-ተኮር ራውቲንግ
- በአቅራቢዎች ላይ ስህተት ሲፈጠር መውደቅ/እንደገና መሞከር
በራውተር ፖሊሲ፣ “ርካሹን ምረጥ፣ አስቸጋሪ ለሆኑ ጥያቄዎች ወደ ፕሪሚየም ተመለስ” ማለት ትችላለህ። ይህ ከፍተኛ ተገኝነት እና ሊገመቱ የሚችሉ በጀቶችን ያቀርባል።
---
## የጥበቃ መስመሮች፣ ልከኝነት እና ደህንነት
PII ን ለማስወገድ፣ የደህንነት ማጣሪያዎችን ለማስፈጸም ወይም ውጤቶችን ለደንበኞች ከመመለስህ በፊት ለማስተካከል ቅድመ- እና ድህረ-ሂደት ሚድልዌር ጨምር። በአቅራቢው-ቤተኛ ልከኝነት (ለምሳሌ፣ OpenAI፣ Google) የራስህን የፖሊሲ ፍተሻዎች በፕሮክሲ ውስጥ አጣምር። ምሳሌ፡ የJSON schema ማረጋገጫን ጠይቅ እና ልክ ባልሆነ ጊዜ እንደገና ጠይቅ።
---
## ምልከታ እና ምዝግብ ማስታወሻ
- ጥያቄ/ምላሽ ምዝግብን ከማረም ጋር አንቃ።
- መለኪያዎችን ወደ Prometheus/Grafana ወይም APMህ ላክ።
- ድብቅነትን፣ ማስመሰያዎችን እና ወጪዎችን በመጨረሻ ነጥብ እና በተጠቃሚ ይከታተሉ።
ይህ “ሞዴል ሩሌት”ን በ SLOዎች እና በጀቶች ወደሚተዳደር አገልግሎት ይለውጠዋል።
---
## የእውነተኛ ዓለም አጠቃቀም ሁኔታዎች
1) ባለብዙ-አቅራቢ የመቋቋም ችሎታ
- የመጀመሪያ፡ ፈጣን/ርካሽ ሞዴል; ተለዋጭ፡ በ429/5xx ላይ ከፍተኛ-ትክክለኛነት ሞዴል።
- ጥቅሞች፡ የተሻለ የስራ ጊዜ፣ የወጪ ቁጥጥር እና የተረጋጋ ጥራት።
2) የባህሪ ባንዲራ ሞዴል ማሻሻያዎች
- አዲስ ሞዴልን ወደ 5% ትራፊክ ለማድረስ የራውተር ክብደቶችን ተጠቀም፤ መለኪያዎችን ይቆጣጠሩ; በተረጋጋ ጊዜ ይጨምሩ።
3) የምርት እርከኖች
- ነፃ እርከን ወደ ትናንሽ ሞዴሎች ይላካል; ፕሮ እርከን ወደ ፕሪሚየም ሞዴሎች።
4) ፈጣን መዝገቦች እና አብነቶች
- አገልግሎቶች ማሻሻያዎችን ያለ ድጋሚ ማሰማራት እንዲወርሱ ጥያቄዎችን በፕሮክሲ ውስጥ ማእከላዊ ያድርጉ።
5) የቡድን ክፍያ እና በጀቶች
- ወጪን በኤፒአይ ቁልፍ ይከታተሉ; ለእያንዳንዱ ቡድን ወይም ምርት ለስላሳ እና ከባድ ገደቦችን ያስገድዱ።
---
## የደህንነት እና ተገዢነት ማረጋገጫ ዝርዝር
- የአቅራቢ ቁልፎችን በሚስጥር አስተዳዳሪህ ውስጥ አስቀምጥ; በማዋቀር ውስጥ በenv vars በኩል ጠቅስ።
- በምዝግብ ማስታወሻዎች ውስጥ የጥያቄ ማረምን እና PII መጥረግን ያብሩ።
- ለፕሮክሲ ለእያንዳንዱ አገልግሎት የኤፒአይ ቁልፎችን ተጠቀም; በየጊዜው ያሽከርክሩ።
- በድርጅት አቀፍ የፍጥነት ገደቦችን እና ኮታዎችን ያዘጋጁ።
- ለሞዴሎች እና ለመጨረሻ ነጥቦች ፍቃድ ዝርዝሮችን/የማይፈቀዱ ዝርዝሮችን ጨምር።
---
## መላ መፈለግ፡ ፈጣን ጥገናዎች
- በፕሮክሲ በኩል “ያልተፈቀደ”፡ `auth.api_keys` እና ደንበኛህ `base_url` + ትክክለኛ ቁልፍ እየተጠቀመ መሆኑን አረጋግጥ።
- ሞዴል አልተገኘም፡ `model_list` እየጠራህ ያለውን ተስማሚ ስም መያዙን አረጋግጥ።
- የጊዜ ማብቂያዎች፡ `timeout` ጨምር ወይም ወደ ዝቅተኛ-ድብቅነት አቅራቢ ክልል ይሂዱ።
- እንግዳ ውጤቶች፡ JSON schema + ማረጋገጫ አንቃ; እንደገና ሙከራዎችን እና ተለዋጮችን ጨምር።
- የወጪ ጫፎች፡ መሸጎጫን ያብሩ; የጅምላ ትራፊክን ወደ ርካሽ ሞዴሎች ይላኩ; ለእያንዳንዱ ቁልፍ ኮታዎችን ያዘጋጁ።
ለጥልቅ ዳይቮች እና የቅርብ ጊዜ ባህሪያት፣ ኦፊሴላዊው ሰነዶች በተደጋጋሚ ይዘመናሉ እና ዕልባት ማድረግ ተገቢ ነው። እንደ DataCamp መመሪያ ያሉ ትምህርቶች ለተግባራዊ ሁኔታዎች በጣም ጥሩ ናቸው፣ እና የጀማሪዎቹ አጭር ኮርስ ቪዲዮ ፅንሰ-ሀሳቦችን በስራ ላይ እንድታይ ሊረዳህ ይችላል።
---
## ሁሉንም በአንድ ላይ አስቀምጠው፡ የማጣቀሻ መተግበሪያ አጽም (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### ተደጋጋሚ ጥያቄዎች
Q1:LiteLLM ምንድን ነው እና በቀጥታ በአቅራቢ SDKs ላይ ለምን ይጠቀሙታል?
LiteLLM ለ100+ LLMs የOpenAI-ተኳሃኝ መግቢያ በር ነው፣ ይህም አንድ ኤፒአይ እና አንድ የአዕምሮ ሞዴል ይሰጥዎታል። የአቅራቢ መቆለፍን ይቀንሳል፣ ራውቲንግን ያቃልላል፣ እና እንደ መሸጎጫ፣ እንደገና መሞከር እና የወጪ ክትትል ያሉ የኦፕሬሽን ባህሪያትን ይጨምራል።
Q2:LiteLLMን ከOpenAI SDK ጋር እንዴት ነው የምጠቀመው?
የ SDKውን የመሠረት URL ወደ LiteLLM ፕሮክሲ ይጠቁሙ እና የፕሮክሲ ኤፒአይ ቁልፍዎን ይጠቀሙ። ፕሮክሲው ከጀርባው አቅራቢዎችን ወይም ሞዴሎችን በሚቀያይርበት ጊዜ ኮድዎ ተመሳሳይ ሆኖ ሊቆይ ይችላል።
Q3:LiteLLM ምላሾችን ማስተላለፍ እና JSON መመለስ ይችላል?
አዎ። የቶከን ዥረቶችን ለማግኘት `stream=True` ይጠቀሙ እና በተለያዩ አቅራቢዎች ላይ የተዋቀሩ ውጤቶችን ለማስፈጸም `response_format`ን ከJSON schema ጋር ይጠቀሙ።
Q4:በተለያዩ የLLM አቅራቢዎች ላይ ወጪዎችን እንዴት መቆጣጠር እችላለሁ?
የአጠቃቀም ምዝግብ ማስታወሻን እና የወጪ ግምትን አንቃ፣ መሸጎጫ ጨምር፣ የፍጥነት ገደቦችን አዘጋጅ እና የጅምላ ትራፊክን በፕሮክሲ በኩል ወደ ርካሽ ሞዴሎች ምራ። ለበጀቶች እና SLOዎች ዳሽቦርዶችን ተቆጣጠር።
Q5:LiteLLM ለአምራች ቡድኖች ተስማሚ ነው?
አዎ። ፕሮክሲው ማረጋገጫ፣ የፍጥነት ገደቦችን፣ ራውቲንግን፣ ምልከታ እና የደህንነት ሚድልዌርን ያቀርባል። መተግበሪያህን OpenAI-ተኳሃኝ በማድረግ አስተዳደርን የሚያማክል የLLM መግቢያ በር ተደርጎ የተነደፈ ነው።

LiteLLMን እንዴት መጠቀም እንደሚቻል: በተጨባጭ መመሪያ፣ በምሳሌዎች፣ በባለሙያዎች ጠቃሚ ምክሮች እና በተጨባጭ የሥራ ሂደቶች