What is LiteLLM and why use it over direct provider SDKs?

LiteLLM is an OpenAI-compatible gateway for 100+ LLMs, giving you one API and one mental model. It reduces vendor lock-in, simplifies routing, and adds ops features like caching, retries, and cost tracking.

How do I use LiteLLM with the OpenAI SDK?

Point the SDK’s base URL to the LiteLLM proxy and use your proxy API key. Your code can stay the same while the proxy swaps providers or models behind the scenes.

Can LiteLLM stream responses and return JSON?

Yes. Use `stream=True` to get token streams, and `response_format` with JSON schema to enforce structured outputs across providers.

How do I control costs across different LLM providers?

Enable usage logging and cost estimation, add caching, set rate limits, and route bulk traffic to cheaper models via the proxy. Monitor with dashboards for budgets and SLOs.

Is LiteLLM suitable for production teams?

Yes. The proxy provides auth, rate limits, routing, observability, and safety middleware. It’s designed as an LLM gateway that centralizes governance while keeping your app OpenAI-compatible.

Πώς να Χρησιμοποιήσετε το LiteLLM: Ένας Πρακτικός Οδηγός με Παραδείγματα, Επαγγελματικές Συμβουλές και Πραγματικά Σενάρια Εργασίας

Αν έχετε ποτέ ευχηθεί κάθε API μοντέλου να λειτουργεί όπως το OpenAI, θα λατρέψετε το LiteLLM. Είναι μια ελαφριά πύλη που σας επιτρέπει να καλείτε πάνω από 100 LLMs με ένα μόνο OpenAI-συμβατό interface — τοπικά στον κώδικα ή μέσω ενός κεντρικού proxy που μπορείτε να μοιραστείτε ανάμεσα σε ομάδες. Σε αυτό το tutorial, θα καλύψουμε την εγκατάσταση, βασική και προχωρημένη χρήση, streaming, batching, επανειλημμένες προσπάθειες, caching, παρακολούθηση κόστους και την ανάπτυξη του LiteLLM proxy με προστατευτικές ρυθμίσεις και δρομολόγηση. Θα συμπεριλάβουμε επίσης παραδείγματα σε Python και JavaScript και πρακτικά μοτίβα χρήσης.

Αξίζει να σημειωθεί: αν θέλετε έναν γρήγορο τρόπο να πρωτοτυπήσετε prompts, να κάνετε ερωτήσεις σε πολλαπλά μοντέλα και να οργανώσετε τα αποτελέσματα, το Sider.AI μπορεί να είναι ένας χρήσιμος βοηθός για την έρευνα και την επανάληψη ενώ συνδέετε την στοίβα σας βασισμένη στο LiteLLM. Συμπληρώνει τη ροή εργασίας σας βοηθώντας σας να συγκρίνετε εξόδους και να βελτιώνετε prompts πριν τα κωδικοποιήσετε.

Θα ακολουθήσουμε μια πρακτική και προσανατολισμένη στη λύση προσέγγιση, ώστε να μπορείτε να κάνετε copy-paste και να ξεκινήσετε άμεσα.

Τι είναι το LiteLLM (και γιατί το Χρησιμοποιούν οι Ομάδες)

Μία API για πολλά μοντέλα: Καλέστε Anthropic, OpenAI, Google, Azure, Cohere, Mistral, Bedrock και άλλα χρησιμοποιώντας OpenAI-στυλ συναρτήσεις.

Δύο τρόποι να το χρησιμοποιήσετε:

Client SDKs (Python/JS): Γρήγορη χρήση σε scripts, servers, notebooks.

Proxy (LLM Gateway): Κεντρική υπηρεσία για δρομολόγηση, αυθεντικοποίηση, καταγραφή, έλεγχο κόστους και παρατήρηση.

Drop-in συμβατότητα: Αντικαταστήστε μοντέλα χωρίς να ξαναγράψετε την εφαρμογή σας.

Λειτουργικά χαρακτηριστικά: Επανειλημμένες προσπάθειες, timeouts, streaming, batching, caching, παρακολούθηση και αναφορά κόστους out of the box.

Αν ξεκινάτε τώρα, ρίξτε μια ματιά στα επίσημα docs Getting Started για μια γρήγορη κατανόηση. Για πρακτικά παραδείγματα, το tutorial του DataCamp είναι εξαιρετικός σύντροφος με βήμα-βήμα κώδικα. Αν προτιμάτε βίντεο, υπάρχει επίσης ένα φιλικό για αρχάριους crash course.

Γρήγορη Εκκίνηση: Εγκατάσταση και η Πρώτη σας Κλήση

Εγκατάσταση

# Python
pip install litellm
# Node.js
npm install litellm

Μεταβλητές Περιβάλλοντος

# Παράδειγμα: χρήση OpenAI + Anthropic + Mistral
export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-ant-...
export MISTRAL_API_KEY=sk-mis-...

Python: Ελάχιστο Chat Completion

from litellm import completion
resp = completion(
model="gpt-4o-mini", # ή "anthropic/claude-3-5-sonnet", "mistral/mistral-large"
messages=.
---
## Streaming, Εργαλεία και JSON Mode
### Streaming Απαντήσεις
```python
from litellm import completion
for chunk in completion(
model="gpt-4o-mini",
messages=.
### Κόστος και Χρήση Token
Το LiteLLM μπορεί να παρακολουθεί τη χρήση token και να εκτιμά το κόστος ανά αίτηση, μοντέλο ή έργο. Με το proxy, μπορείτε να εξάγετε χρήση σε logs, dashboards ή billing sink. Είναι ανεκτίμητο όταν συνδυάζετε παρόχους με διαφορετική τιμολόγηση.
---
## Το LiteLLM Proxy (LLM Gateway)
Αν είστε ομάδα ή πλατφόρμα, το proxy είναι η πραγματική υπερδύναμη: μια κεντρική υπηρεσία με δρομολόγηση, auth, όρια ρυθμού, καταγραφή και παρατηρησιμότητα. Αλληλεπιδράτε με αυτό χρησιμοποιώντας την επιφάνεια API του OpenAI ώστε ο κώδικας της εφαρμογής σας να αλλάζει ελάχιστα.
### Εκκίνηση του Proxy
```bash
# πιο απλή τοπική εκτέλεση
litellm --port 4000

Κατά προεπιλογή, εκθέτει OpenAI-συμβατά endpoints όπως το /v1/chat/completions. Δείξτε τον υφιστάμενο OpenAI client σας στο ` και είστε έτοιμοι.

Διαμόρφωση Παρόχων και Κλειδιών

Δημιουργήστε config.yaml:

model_list:
- model_name: gpt-4o-mini
litellm_params:
model: openai/gpt-4o-mini
api_key: ${OPENAI_API_KEY}
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet
api_key: ${ANTHROPIC_API_KEY}
router:
strategy: simple_weighted
routes:
- model: gpt-4o-mini
weight: 0.6
- model: claude-3-5-sonnet
weight: 0.4
rate_limits:
requests_per_minute: 120
logging:
level: info
sink: stdout
auth:
api_keys:
- key: svc-app-123

Εκτελέστε με τη config:

litellm --config config.yaml --port 4000

Χρησιμοποιήστε το Proxy από OpenAI SDKs (Χωρίς Αλλαγές στον Κώδικα)

from openai import OpenAI
client = OpenAI(base_url=" api_key="svc-app-123")
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=.
---
## Προχωρημένη Δρομολόγηση: Καθυστέρηση, Κόστος ή Αξιοπιστία
Μπορείτε να εφαρμόσετε στρατηγικές δρομολόγησης όπως:
- Weighted round-robin για Α/Β μοντέλα
- Χαμηλότερη καθυστέρηση πρώτα κατά περιοχή
- Δρομολόγηση ευαισθητοποιημένη στο κόστος για μη κρίσιμα endpoints
- Fallback σε περίπτωση λάθους/επανάληψης μεταξύ παρόχων
Με μια πολιτική router, μπορείτε να πείτε «προτίμησε οικονομικά, fallback σε premium για δύσκολα prompts». Αυτό προσφέρει υψηλή διαθεσιμότητα και προβλέψιμους προϋπολογισμούς.
---
## Προστατευτικά Μέτρα, Μετριασμός και Ασφάλεια
Προσθέστε middleware πριν και μετά την επεξεργασία για να απομακρύνετε PII, να εφαρμόσετε φίλτρα ασφάλειας ή να μετριάσετε αποτελέσματα πριν επιστραφούν στους clients. Συνδυάστε τον εγγενή μετριασμό παρόχου (π.χ. OpenAI, Google) με τους δικούς σας ελέγχους πολιτικής στο proxy. Παράδειγμα: απαιτήστε επικύρωση JSON schema και ζητήστε ξανά όταν είναι άκυρο.
---
## Παρατηρησιμότητα και Καταγραφή
- Ενεργοποιήστε καταγραφή αιτήσεων/απαντήσεων με απόρρητο δεδομένων.
- Εξάγετε μετρικές σε Prometheus/Grafana ή το APM σας.
- Παρακολουθήστε καθυστέρηση, tokens, και κόστος ανά endpoint και χρήστη.
Αυτό μετατρέπει το “model roulette” σε μια διαχειριζόμενη υπηρεσία με SLOs και προϋπολογισμούς.
---
## Πραγματικά Σενάρια Χρήσης
1) Ανθεκτικότητα πολλαπλών παρόχων
- Πρωτεύον: γρήγορο/φθηνό μοντέλο; Fallback: μοντέλο υψηλής ακρίβειας σε 429/5xx.
- Οφέλη: καλύτερη διαθεσιμότητα, έλεγχος κόστους και σταθερή ποιότητα.
2) Αναβαθμίσεις μοντέλων με feature flags
- Χρήση βαρών router για να κανερινοποιήσετε νέο μοντέλο στο 5% της κίνησης; παρακολουθήστε μετρικές; αυξήστε όταν είναι σταθερό.
3) Επίπεδα προϊόντος
- Το δωρεάν επίπεδο δρομολογείται σε μικρά μοντέλα, το Pro επίπεδο σε premium μοντέλα.
4) Μητρώα και πρότυπα prompt
- Κεντροποιήστε τα prompts στο proxy ώστε οι υπηρεσίες να κληρονομούν βελτιώσεις χωρίς re-deploy.
5) Χρέωση ομάδας και προϋπολογισμοί
- Παρακολουθήστε δαπάνες ανά API κλειδί; επιβάλετε μαλακά και σκληρά όρια ανά ομάδα ή προϊόν.
---
## Λίστα Ελέγχου Ασφαλείας και Συμμόρφωσης
- Αποθηκεύστε τα κλειδιά παρόχου στο secret manager σας και αναφερθείτε σε αυτά μέσω env vars στη config.
- Ενεργοποιήστε απόκρυψη αιτήσεων και καθαρισμό PII στα logs.
- Χρησιμοποιήστε API κλειδιά ανά υπηρεσία για το proxy και ανανεώνετε τα τακτικά.
- Ορίστε όρια ρυθμού και ποσοστώσεις σε οργανωτικό επίπεδο.
- Προσθέστε allowlists/denylists για μοντέλα και endpoints.
---
## Επιλύσεις Προβλημάτων: Γρήγορες Λύσεις
- “Unauthorized” μέσω proxy: Ελέγξτε `auth.api_keys` και ότι ο client σας χρησιμοποιεί `base_url` + το σωστό κλειδί.
- Μοντέλο μη διαθέσιμο: Βεβαιωθείτε ότι το `model_list` περιέχει το φιλικό όνομα που καλείτε.
- Timeouts: Αυξήστε το `timeout` ή δρομολογήστε σε provider με χαμηλότερη καθυστέρηση.
- Ασυνήθιστες απαντήσεις: Ενεργοποιήστε JSON schema + επικύρωση; προσθέστε retry και fallback.
- Εκρήξεις κόστους: Ενεργοποιήστε caching; δρομολογήστε bulk κίνηση σε φθηνότερα μοντέλα; ορίστε ποσοστώσεις ανά κλειδί.
Για πιο εις βάθος εξερευνήσεις και νεότερα χαρακτηριστικά, τα επίσημα docs ενημερώνονται τακτικά και αξίζει να τα έχετε στα αγαπημένα. Tutorials όπως του DataCamp είναι ιδανικά για πρακτικά μοτίβα και το βίντεο crash course για αρχάριους βοηθά να δείτε τις έννοιες σε δράση.
---
## Τα Βάζουμε Όλα Μαζί: Σκελετός Αναφοράς Εφαρμογής (Python FastAPI)
```python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from litellm import completion
import os
class ChatReq(BaseModel):
question: str
app = FastAPI()
@app.post("/ask")
async def ask(req: ChatReq):
resp = completion(
model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),
messages=.
### FAQ
Ε1: Τι είναι το LiteLLM και γιατί να το προτιμήσω έναντι απευθείας SDK παρόχου;
Το LiteLLM είναι μια πύλη συμβατή με OpenAI για πάνω από 100 LLMs, δίνοντάς σας ένα API και ένα νοητικό μοντέλο. Μειώνει τον vendor lock-in, απλοποιεί τη δρομολόγηση και προσθέτει λειτουργίες ops όπως caching, retry και παρακολούθηση κόστους.
Ε2: Πώς χρησιμοποιώ το LiteLLM με το OpenAI SDK;
Δείξτε το base URL του SDK στο LiteLLM proxy και χρησιμοποιήστε το API key του proxy. Ο κώδικάς σας μένει ο ίδιος, ενώ το proxy αλλάζει παρόχους ή μοντέλα στο παρασκήνιο.
Ε3: Μπορεί το LiteLLM να κάνει streaming απαντήσεων και να επιστρέφει JSON;
Ναι. Χρησιμοποιήστε `stream=True` για λήψη ροής tokens και `response_format` με JSON schema για να επιβάλετε δομημένες εξόδους ανά πάροχο.
Ε4: Πώς ελέγχω κόστη σε πολλούς παρόχους LLM;
Ενεργοποιήστε καταγραφή χρήσης και εκτίμηση κόστους, προσθέστε caching, ορίστε όρια ρυθμού, και δρομολογήστε μεγάλη κίνηση σε φθηνότερα μοντέλα μέσω του proxy. Παρακολουθήστε μέσω dashboards για προϋπολογισμούς και SLOs.
Ε5: Είναι το LiteLLM κατάλληλο για ομάδες σε παραγωγή;
Ναι. Το proxy παρέχει auth, όρια ρυθμού, δρομολόγηση, παρατηρησιμότητα και μεσαία ασφάλειας. Έχει σχεδιαστεί ως μια πύλη LLM που κεντροποιεί τη διακυβέρνηση ενώ κρατά την εφαρμογή σας συμβατή με το OpenAI.

Πώς να Χρησιμοποιήσετε το LiteLLM: Ένας Πρακτικός Οδηγός με Παραδείγματα, Επαγγελματικές Συμβουλές και Πραγματικά Workflows