What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Paano Gamitin ang LiteLLM: Isang Praktikal na Gabay na may mga Halimbawa, Pro Tips, at Real-World Workflows

Kung nais mo na ang bawat model API ay kumilos na parang sa OpenAI, magugustuhan mo ang LiteLLM. Ito ay isang lightweight gateway na nagbibigay-daan sa iyong tumawag ng 100+ LLMs gamit ang isang single, OpenAI-compatible interface—locally sa code o sa pamamagitan ng isang central proxy na maaari mong ibahagi sa mga teams. Sa tutorial na ito, ipaliliwanag namin ang pag-install, basic at advanced usage, streaming, batching, retries, caching, cost tracking, at pag-deploy ng LiteLLM proxy na may guardrails at routing. Maglalakip din kami ng mga halimbawa sa Python at JavaScript at mga real-world patterns.

Mahalagang tandaan: kung gusto mo ng mabilis na paraan upang mag-prototype ng prompts, magtanong sa iba't ibang models, at ayusin ang mga resulta, ang Sider.AI ay maaaring maging kapaki-pakinabang na sidekick para sa pananaliksik at pag-ulit habang ikaw ay naglalagay ng mga kable sa iyong LiteLLM-based stack. Kinukumpleto nito ang iyong workflow sa pamamagitan ng pagtulong sa iyo na ihambing ang mga output at pinuhin ang mga prompt bago mo ito isakodigo.

Gagamit tayo ng praktikal at solution-oriented na paraan, upang makapag-copy-paste ka at mai-ship.

Ano ang LiteLLM (at Bakit Ito Ginagamit ng mga Teams)

Isang API sa maraming models: Tawagan ang Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock, at iba pa gamit ang mga function na istilo ng OpenAI.

Dalawang paraan upang gamitin ito:

Client SDKs (Python/JS): Mabilis na paggamit sa mga scripts, servers, notebooks.

Proxy (LLM Gateway): Sentralisadong serbisyo para sa routing, auth, logging, cost controls, at observability.

Drop-in compatibility: Palitan ang mga models nang hindi muling sinusulat ang iyong app.

Operational features: Retries, timeouts, streaming, batching, caching, tracing, at cost reporting out of the box.

Kung nagsisimula ka pa lamang, basahin ang opisyal na Getting Started docs para sa mabilis na mental model. Para sa mga hands-on na halimbawa, ang tutorial ng DataCamp ay isang solidong kasama na may step-by-step code. Kung mas gusto mo ang video, mayroon ding beginner-friendly crash course.

Mabilisang Pagsisimula: I-install at ang Iyong Unang Tawag

I-install

# Python
pip install litellm
# Node.js
npm install litellm

Environment Variables

# Halimbawa: gamit ang OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Minimal Chat Completion

from litellm import completion
resp = completion(
model="gpt-4o-mini", # o "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Streaming, Tools, and JSON Mode
### Streaming Responses
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Cost and Token Usage
Kayang subaybayan ng LiteLLM ang paggamit ng token at tantiyahin ang gastos bawat request, model, o proyekto. Sa pamamagitan ng proxy, maaari mong i-export ang paggamit sa mga logs, dashboards, o isang billing sink. Ito ay napakahalaga kapag pinagsama mo ang mga vendors na may iba't ibang pagpepresyo.
---
## Ang LiteLLM Proxy (LLM Gateway)
Kung ikaw ay isang team o platform, ang proxy ang tunay na superpower: isang central service na may routing, auth, rate limits, logging, at observability. Nakikipag-ugnayan ka dito gamit ang OpenAI API surface kaya halos hindi nagbabago ang iyong app code.
### Simulan ang Proxy
```bash
# simplest local run
litellm --port 4000

Bilang default, inilalantad nito ang mga OpenAI-compatible endpoints tulad ng /v1/chat/completions. Ituro ang iyong kasalukuyang OpenAI client sa ` at handa ka na.

I-configure ang Providers at Keys

Lumikha ng config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Patakbuhin gamit ang config:

litellm --config config.yaml --port 4000

Gamitin ang Proxy mula sa OpenAI SDKs (Walang Pagbabago sa Code)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Advanced Routing: Latency, Cost, or Reliability
Maaari kang magpatupad ng mga routing strategies tulad ng:
- Weighted round-robin sa A/B models
- Lowest-latency-first ayon sa rehiyon
- Cost-aware routing para sa mga non-critical endpoints
- Fallback-on-error/retry sa iba't ibang providers
Sa pamamagitan ng router policy, maaari mong sabihin na “mas gusto ang mura, bumalik sa premium para sa mga tough prompts.” Nag-aalok ito ng mataas na availability at predictable budgets.
---
## Guardrails, Moderation, at Safety
Magdagdag ng pre- at post-processing middleware upang alisin ang PII, ipatupad ang mga safety filters, o i-moderate ang mga output bago ibalik sa mga clients. Pagsamahin ang provider-native moderation (hal., OpenAI, Google) sa iyong sariling policy checks sa proxy. Halimbawa: kailanganin ang JSON schema validation at muling magtanong kapag invalid.
---
## Observability at Logging
- Paganahin ang request/response logging na may redaction.
- I-export ang mga metrics sa Prometheus/Grafana o sa iyong APM.
- Subaybayan ang latency, tokens, at gastos ayon sa endpoint at user.
Ginagawa nitong isang managed service na may SLOs at budgets ang “model roulette”.
---
## Real-World Usage Patterns
1) Multi-vendor resilience
- Primary: mabilis/murang model; Fallback: high-accuracy model sa 429/5xx.
- Mga Benepisyo: mas mahusay na uptime, cost control, at stable na kalidad.
2) Feature flag model upgrades
- Gumamit ng router weights upang i-canary ang isang bagong model sa 5% ng traffic; subaybayan ang mga metrics; ramp up kapag stable.
3) Product tiers
- Libreng tier na naka-route sa maliliit na models; Pro tier sa mga premium models.
4) Prompt registries at templates
- Sentralisahin ang mga prompts sa proxy upang manahin ng mga serbisyo ang mga pagpapabuti nang hindi na kailangang mag-redeploy.
5) Team billing at budgets
- Subaybayan ang gastusin ayon sa API key; ipatupad ang soft at hard limits bawat team o produkto.
---
## Security at Compliance Checklist
- Mag-imbak ng mga provider keys sa iyong secret manager; i-reference sa pamamagitan ng env vars sa config.
- I-on ang request redaction at PII scrubbing sa mga logs.
- Gumamit ng per-service API keys para sa proxy; regular na i-rotate.
- Magtakda ng org-wide rate limits at quotas.
- Magdagdag ng allowlists/denylists para sa mga models at endpoints.
---
## Troubleshooting: Mabilisang Pag-ayos
- “Unauthorized” sa pamamagitan ng proxy: Suriin ang `auth.api_keys` at na ginagamit ng iyong client ang `base_url` + tamang key.
- Hindi natagpuan ang model: Tiyakin na ang `model_list` ay naglalaman ng friendly name na iyong tinatawagan.
- Timeouts: Dagdagan ang `timeout` o i-route sa isang lower-latency provider region.
- Weird outputs: Paganahin ang JSON schema + validation; magdagdag ng retries at fallbacks.
- Cost spikes: I-on ang caching; i-route ang bulk traffic sa mas murang models; magtakda ng per-key quotas.
Para sa mas malalim na dives at pinakabagong features, ang opisyal na docs ay madalas na ina-update at sulit na i-bookmark. Ang mga tutorial tulad ng gabay ng DataCamp ay mahusay para sa mga hands-on na patterns, at ang beginner crash course video ay maaaring makatulong sa iyo na makita ang mga konsepto sa aksyon.
---
## Pagsamahin ang Lahat: Reference App Skeleton (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### FAQ
Q1: Ano ang LiteLLM at bakit ito gagamitin sa halip na direktang provider SDKs?
Ang LiteLLM ay isang OpenAI-compatible gateway para sa 100+ LLMs, na nagbibigay sa iyo ng isang API at isang mental model. Binabawasan nito ang vendor lock-in, pinapasimple ang routing, at nagdaragdag ng mga ops features tulad ng caching, retries, at cost tracking.
Q2: Paano ko gagamitin ang LiteLLM sa OpenAI SDK?
Ituro ang base URL ng SDK sa LiteLLM proxy at gamitin ang iyong proxy API key. Ang iyong code ay maaaring manatiling pareho habang pinapalitan ng proxy ang mga providers o models sa likod ng mga eksena.
Q3: Kaya bang mag-stream ng responses at magbalik ng JSON ang LiteLLM?
Oo. Gamitin ang `stream=True` upang makakuha ng token streams, at `response_format` na may JSON schema upang ipatupad ang structured outputs sa iba't ibang providers.
Q4: Paano ko kokontrolin ang mga gastos sa iba't ibang LLM providers?
Paganahin ang usage logging at cost estimation, magdagdag ng caching, magtakda ng rate limits, at i-route ang bulk traffic sa mas murang models sa pamamagitan ng proxy. Subaybayan gamit ang mga dashboards para sa budgets at SLOs.
Q5: Angkop ba ang LiteLLM para sa mga production teams?
Oo. Ang proxy ay nagbibigay ng auth, rate limits, routing, observability, at safety middleware. Ito ay dinisenyo bilang isang LLM gateway na sentralisadong namamahala habang pinapanatili ang iyong app na OpenAI-compatible.