What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

LiteLLM Nasıl Kullanılır: Örnekler, Profesyonel İpuçları ve Gerçek Dünya İş Akışlarıyla Pratik Rehber

Eğer her model API'sinin OpenAI gibi davranmasını dilediyseniz, LiteLLM’yi çok seveceksiniz. LiteLLM, 100'den fazla LLM'yi tek bir OpenAI uyumlu arayüzle çağırmanızı sağlayan hafif bir geçittir—kod içinde yerel olarak veya ekipler arasında paylaşabileceğiniz merkezi bir proxy aracılığıyla. Bu öğreticide kurulum, temel ve ileri kullanım, akış (streaming), toplu işleme, yeniden denemeler, önbellekleme, maliyet takibi ve LiteLLM proxy’sinin guardrail ve yönlendirme ile konuşlandırılması adımlarını inceleyeceğiz. Ayrıca Python ve JavaScript örnekleri ve gerçek dünya kullanım desenleri de sunacağız.

Dikkate değer: Eğer hızlıca istemler (promptlar) prototiplemek, birden fazla modelde soru sormak ve sonuçları organize etmek istiyorsanız, Sider.AI, LiteLLM tabanlı yığını kurarken araştırma ve iterasyon için faydalı bir yardımcı olabilir. LiteLLM iş akışınızı tamamlayarak çıktıları karşılaştırmanıza ve istemleri kodlamadan önce iyileştirmenize imkan tanır.

Pratik ve çözüm odaklı bir yol izleyerek, kopyala-yapıştır yapıp hemen uygulamaya geçebilirsiniz.

LiteLLM Nedir (ve Neden Ekipler Kullanır)

Tek API ile birçok modeli çağırma: Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock ve daha fazlasını OpenAI tarzı fonksiyonlarla kullanabilirsiniz.

Kullanım şekilleri:

İstemci SDK'ları (Python/JS): Scriptlerde, sunucularda, not defterlerinde hızlı kullanım.

Proxy (LLM Geçidi): Yönlendirme, yetkilendirme, kayıt tutma, maliyet kontrolü ve gözlemlenebilirlik için merkezi hizmet.

Drop-in uyumluluk: Uygulamanızı yeniden yazmadan modelleri değiştirebilirsiniz.

Operasyonel özellikler: Yeniden denemeler, zaman aşımı, akış, toplu işleme, önbellekleme, izleme ve maliyet raporlaması kutudan çıkar çıkmaz.

Yeni başlıyorsanız, hızlı kavrayış için resmi Başlangıç Kılavuzu'nu göz atın. Detaylı örnekler için DataCamp öğreticisi adım adım kod sunar. Video tercih ederseniz, başlangıç dostu hızlı kurslar da mevcut.

Hızlı Başlangıç: Kurulum ve İlk Çağrınız

Kurulum

# Python
pip install litellm
# Node.js
npm install litellm

Ortam Değişkenleri

# Örnek: OpenAI + Anthropic + Mistral kullanımı
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Minimal Chat Tamamlama

from litellm import completion
resp = completion(
model="gpt-4o-mini", # veya "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Akış, Araçlar ve JSON Modu
### Akış Yanıtları
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Maliyet ve Token Kullanımı
LiteLLM, istek, model veya proje bazında token kullanımını takip eder ve maliyet tahmini yapar. Proxy ile kullanım verilerini loglara, panolara veya faturalama alıcılarına aktarabilirsiniz. Farklı fiyatlandırmaya sahip sağlayıcıları karıştırırken bu çok değerlidir.
---
## LiteLLM Proxy (LLM Geçidi)
Eğer bir ekip veya platformsanız, proxy gerçek süper güçtür: yönlendirme, yetkilendirme, hızlimiti, kayıt tutma ve gözlemlenebilirlik sağlar. OpenAI API yüzeyi ile etkileşerek uygulama kodunuzda neredeyse hiç değişiklik yapmadan kullanabilirsiniz.
### Proxy Başlatma
```bash
# en basit yerel çalıştırma
litellm --port 4000

Varsayılan olarak OpenAI uyumlu uç noktalar sağlar, örn. /v1/chat/completions. Mevcut OpenAI istemcinizi ` adresine yönlendirin ve kullanıma hazırsınız.

Sağlayıcıları ve Anahtarları Yapılandırma

config.yaml oluşturun:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Yapılandırma ile çalıştırın:

litellm --config config.yaml --port 4000

Proxy’yi OpenAI SDK'lardan Kullanma (Kod Değişikliği Yok)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## İleri Yönlendirme: Gecikme, Maliyet veya Güvenilirlik
Şu yönlendirme stratejilerini uygulayabilirsiniz:
- Modelleri A/B için ağırlıklı döngü
- Bölgeye göre en düşük gecikmeli öncelik
- Kritik olmayan uç noktalar için maliyet odaklı yönlendirme
- Sağlayıcılar arasında hata durumunda geri dönüş/yineleme
Bir yönlendirme politikasıyla “ucuz tercih et, zor istemlerde premium’a geç” diyebilirsiniz. Bu yüksek erişilebilirlik ve öngörülebilir bütçe sağlar.
---
## Guardrail, Moderasyon ve Güvenlik
İstemciye dönmeden önce PII temizleme, güvenlik filtreleri uygulama veya çıktı moderasyonu için ön ve sonrası işleme ara yazılımı ekleyin. Sağlayıcıya özgü moderasyon (örneğin OpenAI, Google) ile proxy’de kendi politika kontrollerinizi birleştirin. Örnek: JSON şema doğrulaması zorunlu kılın ve geçersizse soruyu tekrar sorun.
---
## Gözlemlenebilirlik ve Kayıt Tutma
- İstek/yanıt kayıtlarını gizleyerek etkinleştirin.
- Metrikleri Prometheus/Grafana veya APM’nize aktarın.
- Gecikme, token ve maliyeti uç nokta ve kullanıcı bazında izleyin.
Bu sayede “model ruleti” SLO ve bütçeleri olan yönetilen bir hizmete dönüşür.
---
## Gerçek Dünya Kullanım Desenleri
1) Çoklu sağlayıcı dayanıklılığı
- Birincil: hızlı/ucuz model; Yedek: 429/5xx durumunda yüksek doğruluklu model.
- Faydalar: daha iyi çalışma süresi, maliyet kontrolü ve stabil kalite.
2) Özellik bayrağı ile model yükseltmeleri
- Yönlendirici ağırlıkları kullanarak yeni modeli %5 trafik için test edin; metrikleri takip edin; stabil olur olmaz genişletin.
3) Ürün kademeleri
- Ücretsiz katman küçük modellere; Pro katman premium modellere yönlendirildi.
4) İstem kayıtları ve şablonları
- İstemleri proxy’de merkezileştirerek hizmetlerin yeniden dağıtımlara gerek kalmadan gelişmelerden faydalanmasını sağlayın.
5) Ekip faturalama ve bütçeleri
- API anahtarı bazında harcamaları takip edin; takım veya ürün için yumuşak ve sert limitler uygulayın.
---
## Güvenlik ve Uygunluk Kontrol Listesi
- Sağlayıcı anahtarlarını gizli yöneticiye depolayın; yapılandırmada ortam değişkenleriyle referans verin.
- Kayıtlarda istek gizleme ve PII temizleme özelliklerini açın.
- Proxy için servis bazlı API anahtarları kullanın; düzenli olarak değiştirin.
- Kurum çapında hız limitleri ve kota belirleyin.
- Modeller ve uç noktalar için izinli/engelli listeleri ekleyin.
---
## Sorun Giderme: Hızlı Çözümler
- Proxy üzerinden "Unauthorized" hatası: `auth.api_keys` ve istemcinizin doğru `base_url` ile anahtar kullandığını kontrol edin.
- Model bulunamadı: Çağırdığınız isimlerin `model_list` içinde olduğundan emin olun.
- Zaman aşımı: `timeout` değerini artırın veya daha düşük gecikmeli bölgeye yönlendirin.
- Garip çıktı: JSON şema ve doğrulamayı etkinleştirin; yeniden denemeler ve geri dönüş ekleyin.
- Maliyet artışları: Önbellekleme açın; toplu trafiği daha ucuz modellere yönlendirin; anahtar bazlı kotalar belirleyin.
Daha derin bilgiler ve en yeni özellikler için resmi dokümanlar sık güncellenmekte ve favorilerinize eklemeye değer. DataCamp rehberleri pratik desenler için harika, başlangıç videosu ise kavramların sahnede nasıl göründüğünü anlamanıza yardımcı olur.
---
## Hepsini Bir Araya Getirin: Referans Uygulama İskeleti (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI()
@app.post("/ask")
async def ask(req: ChatReq):
    resp = completion(
        model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
        messages=[{"role": "user", "content": req.question}],
    )
    return resp
### SSS
Q1: LiteLLM nedir ve neden doğrudan sağlayıcı SDK’ları yerine kullanırım?
LiteLLM, 100’den fazla LLM için OpenAI uyumlu bir geçittir; size tek API ve tek düşünce modeli sunar. Sağlayıcı bağımlılığını azaltır, yönlendirmeyi basitleştirir ve önbellekleme, yeniden deneme, maliyet takibi gibi operasyonel özellikler ekler.
Q2: LiteLLM’yi OpenAI SDK ile nasıl kullanırım?
SDK’nın base_url’sini LiteLLM proxy’sine yönlendirin ve proxy’nin API anahtarını kullanın. Kodunuz aynı kalırken arka planda proxy sağlayıcıları veya modelleri değiştirir.
Q3: LiteLLM yanıtları akış halinde gönderebilir ve JSON dönebilir mi?
Evet. `stream=True` parametresi ile token akışı alınabilir ve JSON şeması ile yapısal çıktı zorunlu kılınabilir.
Q4: Farklı LLM sağlayıcılar arasında maliyetleri nasıl kontrol ederim?
Kullanım kayıtlarını ve maliyet tahminini etkinleştirin, önbellekleme ekleyin, hız limitleri koyun ve büyük trafiği ucuz modellere yönlendirin. Panolarla bütçeleri ve SLO’ları izleyin.

LiteLLM Nasıl Kullanılır: Örnekler, Uzman İpuçları ve Gerçek Dünya İş Akışlarıyla Pratik Bir Kılavuz