Päivitetty 25. syys 2025
6 min
# Pythonpip install litellm# Node.jsnpm install litellm# Esimerkki: OpenAI + Anthropic + Mistral käytössäexport OPENAI_API_KEY=sk-...export ANTHROPIC_API_KEY=sk-ant-...export MISTRAL_API_KEY=sk-mis-...from litellm import completionresp = completion(model="gpt-4o-mini", # tai "anthropic/claude-3-5-sonnet", "mistral/mistral-large"messages=.---## Suoratoisto, työkalut ja JSON-tila### Suoratoistovastaukset```pythonfrom litellm import completionfor chunk in completion(model="gpt-4o-mini",messages=.### Kustannukset ja tokenien käyttöLiteLLM voi seurata tokenien käyttöä ja arvioida kustannuksia pyyntöä, mallia tai projektia kohden. Välityspalvelimen avulla voit viedä käytön lokeihin, mittaristoihin tai laskutussäiliöön. Tämä on korvaamatonta, kun käytät eri toimittajia eri hinnoittelulla.---## LiteLLM Välityspalvelin (LLM-portti)Jos olet tiimi tai alusta, välityspalvelin on todellinen supervoima: keskitetty palvelu reititykseen, autentikointiin, nopeusrajoihin, lokitukseen ja observabiliteettiin. Käytät sitä OpenAI:n API-pinnan kautta, joten sovelluskoodisi tarvitsee vain vähän tai ei lainkaan muutoksia.### Käynnistä välityspalvelin```bash# yksinkertaisin paikallinen ajaminenlitellm --port 4000/v1/chat/completions. Määritä olemassa oleva OpenAI-asiakkaasi osoittamaan siihen ` ja olet valmis.config.yaml:model_list:- model_name: gpt-4o-minilitellm_params:model: openai/gpt-4o-miniapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}router:strategy: simple_weightedroutes:- model: gpt-4o-miniweight: 0.6- model: claude-3-5-sonnetweight: 0.4rate_limits:requests_per_minute: 120logging:level: infosink: stdoutauth:api_keys:- key: svc-app-123litellm --config config.yaml --port 4000from openai import OpenAIclient = OpenAI(base_url=" api_key="svc-app-123")resp = client.chat.completions.create(model="gpt-4o-mini",messages=.---## Edistynyt reititys: viive, kustannus tai luotettavuusVoit toteuttaa reititysstrategioita, kuten:- Painotettu kierrosjakaminen A/B-testiin malleissa- Nopein viive ensin alueittain- Kustannustietoinen reititys ei-kriittisille päätepisteille- Virheissä varareitti/uudelleenyritys eri tarjoajien välilläRouter-politiikalla voit sanoa ”suosi halpaa, siirtyä premiumiin vaikeissa kysymyksissä.” Tämä tarjoaa korkean käytettävyyden ja ennustettavat budjetit.---## Guardrailit, moderaatio ja turvallisuusLisää esikäsittely- ja jälkikäsittelyvälikerroksia poistaaksesi PII:tä, noudattaaksesi turvasuodattimia tai moderoidaksesi vastauksia ennen asiakkaalle palauttamista. Yhdistä tarjoajan oma moderointi (esim. OpenAI, Google) omiin politiikkatarkistuksiin välityspalvelimessa. Esimerkiksi vaadi JSON-skeeman validointi ja kysy uudelleen, jos tulos on virheellinen.---## Observabiliteetti ja lokitus- Ota käyttöön pyyntö-/vastauslokitus tietojen peittämisellä.- Vie mittarit Prometheukseen/Grafanaan tai APM-järjestelmääsi.- Seuraa viivettä, token-määriä ja kustannuksia päätepisteittäin ja käyttäjäkohtaisesti.Tämä muuttaa ”mallien rulettipelin” hallituksi palveluksi SLO:illa ja budjeteilla.---## Käytännön käyttömallit1) Monitoimittajavarmuus- Päämalli: nopea/edullinen; varamalli: tarkka malli virheissä (429/5xx).- Hyödyt: parempi käyttöaika, kustannusten hallinta ja tasainen laatu.2) Ominaisuuslippujen malli-päivitykset- Käytä reitityspainoja uutta mallia kanarialle 5 % liikenteelle; seuraa mittareita; lisää käyttöä vakauden myötä.3) Tuoteluokat- Ilmainen taso pienille malleille; Pro-taso premium-malleille.4) Kehoterekisterit ja -mallit- Keskitetään kehotteet välityspalvelimeen, jolloin palvelut saavat parannukset ilman uudelleenkäyttöönottoja.5) Tiimien laskutus ja budjetit- Seuraa kulutusta API-avaimen mukaan; aseta pehmeät ja kovat rajat tiimikohtaisesti tai tuotteittain.---## Turvallisuus- ja vaatimustenmukaisuustarkistuslista- Säilytä tarjoajan avaimet salaisuushallinnassasi; viittaa ympäristömuuttujilla konfiguraatiossa.- Ota käyttöön pyyntöjen peittäminen ja PII:n puhdistus lokeissa.- Käytä proxyssä palvelukohtaisia avaimia; kierrätä säännöllisesti.- Aseta organisaatiotasoiset nopeusrajoitukset ja kiintiöt.- Lisää sallitut/estolistat malleille ja päätepisteille.---## Vianmääritys: Nopeat korjaukset- ”Unauthorized” välityspalvelimen kautta: tarkista `auth.api_keys` ja että asiakkaasi käyttää `base_url` + oikeaa avainta.- Mallia ei löydy: varmista, että `model_list` sisältää kutsuttavan nimen.- Aikakatkaisut: nosta `timeout`-asetuksia tai reititä matalamman viiveen alueelle.- Outoja vastauksia: ota JSON-skeema + validointi käyttöön; lisää uudelleenyritykset ja varareititys.- Kustannushuiput: ota välimuisti käyttöön; ohjaa isommat volyymit edullisempiin malleihin; aseta avainkohtaiset kiintiöt.Syvällisempiin aiheisiin ja uusimpiin ominaisuuksiin viralliset dokumentit päivittyvät usein ja niitä kannattaa seurata. DataCampin opas tarjoaa hyviä käytännön malleja, ja aloittelijan pikakurssi-video auttaa ymmärtämään kokonaisuuden käytännössä.---## Yhdistetään kaikki: Referenssisovelluksen runko (Python FastAPI)```python# app.pyfrom fastapi import FastAPIfrom pydantic import BaseModelfrom litellm import completionimport osclass ChatReq(BaseModel):question: strapp = FastAPI()@app.post("/ask")async def ask(req: ChatReq):resp = completion(model=os.getenv("DEFAULT_MODEL", "gpt-4o-mini"),messages=.### Usein kysytyt kysymyksetQ1: Mikä on LiteLLM ja miksi käyttää sitä suoraan tarjoajien SDK:iden sijaan?LiteLLM on OpenAI-yhteensopiva portti yli 100 LLM-mallille, tarjoten yhden rajapinnan ja yhden mentaalimallin. Se vähentää toimittajasidonnaisuutta, yksinkertaistaa reititystä ja lisää operatiivisia ominaisuuksia kuten välimuistin, uudelleenyritykset ja kustannusseurannan.Q2: Miten käytän LiteLLM:ää OpenAI SDK:n kanssa?Aseta SDK:n base URL osoittamaan LiteLLM-välityspalvelimeen ja käytä proxy-avainta. Koodisi pysyy muuten samana, kun proxy vaihtaa taustalla toimittajaa tai mallia.Q3: Voiko LiteLLM suoratoistaa vastauksia ja palauttaa JSON-muodossa?Kyllä. Käytä `stream=True` saadaksesi token-virtoja ja `response_format` JSON-skeemalla rakenteellisten vastausten varmistamiseksi eri tarjoajien välillä.Q4: Miten hallitsen kustannuksia eri LLM-toimittajien välillä?Ota käyttöön käytön lokitus ja kustannusarviointi, lisää välimuistitus, aseta nopeusrajat ja ohjaa suuret käyttäjäryhmät edullisempiin malleihin välityspalvelimella. Seuraa mittaristoilla budjetteja ja palvelutasoja.Q5: Onko LiteLLM soveltuva tuotantotiimeille?Kyllä. Välityspalvelin tarjoaa autentikoinnin, nopeusrajat, reitityksen, observabiliteetin ja turvallisuusvälikerrokset. Se on suunniteltu LLM-portiksi, joka keskittää hallinnan ja pitää sovelluksesi OpenAI-yhteensopivana.
Kuinka hallita ChatPDF:tä: Nopeammat oivallukset tiheistä asiakirjoista

Paras X-automaattikäännösvaihtoehto nopeisiin ja tarkkoihin asiakirjoihin

Samsungin tekoälykäännös ei saatavilla Iranissa? Käytännön kiertotavat

Persian-käännöstyökalut: käytännön opas nopeampaan ja tarkempaan työhön

Paras Grok-vaihtoehto syvälliseen, lähteisiin perustuvaan tutkimukseen

Top 15 AI-kuvageneraattorin ominaisuutta, joita tulet oikeasti käyttämään