Na-update noong Sep 25, 2025
6 min
# Pythonpip install litellm# Node.jsnpm install litellm# Halimbawa: gamit ang OpenAI + Anthropic + Mistralexport OPENAI_API_KEY=sk-...export ANTHROPIC_API_KEY=sk-ant-...export MISTRAL_API_KEY=sk-mis-...from litellm import completionresp = completion(model="gpt-4o-mini", # o "anthropic/claude-3-5-sonnet", "mistral/mistral-large"messages=.---## Streaming, Tools, and JSON Mode### Streaming Responses```pythonfrom litellm import completionfor chunk in completion(model="gpt-4o-mini",messages=.### Cost and Token UsageKayang subaybayan ng LiteLLM ang paggamit ng token at tantiyahin ang gastos bawat request, model, o proyekto. Sa pamamagitan ng proxy, maaari mong i-export ang paggamit sa mga logs, dashboards, o isang billing sink. Ito ay napakahalaga kapag pinagsama mo ang mga vendors na may iba't ibang pagpepresyo.---## Ang LiteLLM Proxy (LLM Gateway)Kung ikaw ay isang team o platform, ang proxy ang tunay na superpower: isang central service na may routing, auth, rate limits, logging, at observability. Nakikipag-ugnayan ka dito gamit ang OpenAI API surface kaya halos hindi nagbabago ang iyong app code.### Simulan ang Proxy```bash# simplest local runlitellm --port 4000/v1/chat/completions. Ituro ang iyong kasalukuyang OpenAI client sa ` at handa ka na.config.yaml:model_list:- model_name: gpt-4o-minilitellm_params:model: openai/gpt-4o-miniapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}router:strategy: simple_weightedroutes:- model: gpt-4o-miniweight: 0.6- model: claude-3-5-sonnetweight: 0.4rate_limits:requests_per_minute: 120logging:level: infosink: stdoutauth:api_keys:- key: svc-app-123litellm --config config.yaml --port 4000from openai import OpenAIclient = OpenAI(base_url=" api_key="svc-app-123")resp = client.chat.completions.create(model="gpt-4o-mini",messages=.---## Advanced Routing: Latency, Cost, or ReliabilityMaaari kang magpatupad ng mga routing strategies tulad ng:- Weighted round-robin sa A/B models- Lowest-latency-first ayon sa rehiyon- Cost-aware routing para sa mga non-critical endpoints- Fallback-on-error/retry sa iba't ibang providersSa pamamagitan ng router policy, maaari mong sabihin na “mas gusto ang mura, bumalik sa premium para sa mga tough prompts.” Nag-aalok ito ng mataas na availability at predictable budgets.---## Guardrails, Moderation, at SafetyMagdagdag ng pre- at post-processing middleware upang alisin ang PII, ipatupad ang mga safety filters, o i-moderate ang mga output bago ibalik sa mga clients. Pagsamahin ang provider-native moderation (hal., OpenAI, Google) sa iyong sariling policy checks sa proxy. Halimbawa: kailanganin ang JSON schema validation at muling magtanong kapag invalid.---## Observability at Logging- Paganahin ang request/response logging na may redaction.- I-export ang mga metrics sa Prometheus/Grafana o sa iyong APM.- Subaybayan ang latency, tokens, at gastos ayon sa endpoint at user.Ginagawa nitong isang managed service na may SLOs at budgets ang “model roulette”.---## Real-World Usage Patterns1) Multi-vendor resilience- Primary: mabilis/murang model; Fallback: high-accuracy model sa 429/5xx.- Mga Benepisyo: mas mahusay na uptime, cost control, at stable na kalidad.2) Feature flag model upgrades- Gumamit ng router weights upang i-canary ang isang bagong model sa 5% ng traffic; subaybayan ang mga metrics; ramp up kapag stable.3) Product tiers- Libreng tier na naka-route sa maliliit na models; Pro tier sa mga premium models.4) Prompt registries at templates- Sentralisahin ang mga prompts sa proxy upang manahin ng mga serbisyo ang mga pagpapabuti nang hindi na kailangang mag-redeploy.5) Team billing at budgets- Subaybayan ang gastusin ayon sa API key; ipatupad ang soft at hard limits bawat team o produkto.---## Security at Compliance Checklist- Mag-imbak ng mga provider keys sa iyong secret manager; i-reference sa pamamagitan ng env vars sa config.- I-on ang request redaction at PII scrubbing sa mga logs.- Gumamit ng per-service API keys para sa proxy; regular na i-rotate.- Magtakda ng org-wide rate limits at quotas.- Magdagdag ng allowlists/denylists para sa mga models at endpoints.---## Troubleshooting: Mabilisang Pag-ayos- “Unauthorized” sa pamamagitan ng proxy: Suriin ang `auth.api_keys` at na ginagamit ng iyong client ang `base_url` + tamang key.- Hindi natagpuan ang model: Tiyakin na ang `model_list` ay naglalaman ng friendly name na iyong tinatawagan.- Timeouts: Dagdagan ang `timeout` o i-route sa isang lower-latency provider region.- Weird outputs: Paganahin ang JSON schema + validation; magdagdag ng retries at fallbacks.- Cost spikes: I-on ang caching; i-route ang bulk traffic sa mas murang models; magtakda ng per-key quotas.Para sa mas malalim na dives at pinakabagong features, ang opisyal na docs ay madalas na ina-update at sulit na i-bookmark. Ang mga tutorial tulad ng gabay ng DataCamp ay mahusay para sa mga hands-on na patterns, at ang beginner crash course video ay maaaring makatulong sa iyo na makita ang mga konsepto sa aksyon.---## Pagsamahin ang Lahat: Reference App Skeleton (Python FastAPI)```python# app.pyfrom fastapi import FastAPIfrom pydantic import BaseModelfrom litellm import completionimport osclass ChatReq(BaseModel):question: strapp = FastAPI@app.post("/ask")async def ask(req: ChatReq):resp = completion(model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),messages=.### FAQQ1: Ano ang LiteLLM at bakit ito gagamitin sa halip na direktang provider SDKs?Ang LiteLLM ay isang OpenAI-compatible gateway para sa 100+ LLMs, na nagbibigay sa iyo ng isang API at isang mental model. Binabawasan nito ang vendor lock-in, pinapasimple ang routing, at nagdaragdag ng mga ops features tulad ng caching, retries, at cost tracking.Q2: Paano ko gagamitin ang LiteLLM sa OpenAI SDK?Ituro ang base URL ng SDK sa LiteLLM proxy at gamitin ang iyong proxy API key. Ang iyong code ay maaaring manatiling pareho habang pinapalitan ng proxy ang mga providers o models sa likod ng mga eksena.Q3: Kaya bang mag-stream ng responses at magbalik ng JSON ang LiteLLM?Oo. Gamitin ang `stream=True` upang makakuha ng token streams, at `response_format` na may JSON schema upang ipatupad ang structured outputs sa iba't ibang providers.Q4: Paano ko kokontrolin ang mga gastos sa iba't ibang LLM providers?Paganahin ang usage logging at cost estimation, magdagdag ng caching, magtakda ng rate limits, at i-route ang bulk traffic sa mas murang models sa pamamagitan ng proxy. Subaybayan gamit ang mga dashboards para sa budgets at SLOs.Q5: Angkop ba ang LiteLLM para sa mga production teams?Oo. Ang proxy ay nagbibigay ng auth, rate limits, routing, observability, at safety middleware. Ito ay dinisenyo bilang isang LLM gateway na sentralisadong namamahala habang pinapanatili ang iyong app na OpenAI-compatible.
Paano Maging Eksperto sa ChatPDF: Mas Mabilis na Pagkuha ng Impormasyon mula sa Makakapal na Dokumento

Ang Pinakamahusay na Alternatibo sa X Auto-Translation para sa Mabilis at Tumpak na Mga Dokumento

Hindi Available ang Samsung AI Translation sa Iran? Mga Praktikal na Solusyon

Mga Kasangkapan sa Pagsasalin ng Persian: Isang Praktikal na Gabay para sa Mas Mabilis at Tumpak na Trabaho

Ang Pinakamahusay na Alternatibo sa Grok para sa Malalim at May Sanggunian na Pananaliksik

Top 15 Features ng AI Image Generator na Talagang Magagamit Mo