업데이트 날짜: 2025년 9월 25일
7 분
/v1/chat/completions 엔드포인트를 만듭니다.pip install litellmexport OPENAI_API_KEY=sk-...# 선택 사항: 더 많은 공급업체export ANTHROPIC_API_KEY=...export GOOGLE_API_KEY=...from litellm import completionresp = completion(model="gpt-4o", # 또는 "azure/gpt-4o", "anthropic/claude-3-5-sonnet", "gemini/gemini-1.5-pro"messages=.- 위의 빠른 시작 코드를 실행합니다.- 목표: LiteLLM을 통해 첫 번째 OpenAI 호환 요청을 수행합니다.- 실용적인 빌더- DataCamp 튜토리얼을 읽고 스트리밍 및 재시도로 예제를 확장합니다.- 두 개의 공급업체를 추가하고 폴백을 테스트합니다.- 팀/프로덕션 소유자- 공식 시작하기 가이드를 연구합니다.- 프록시를 설정하고 관찰 가능성 및 비용 추적을 추가합니다.- 속도 제한 및 PII 수정 정책을 적용합니다.—## 심층 분석: 매주 사용할 패턴### 인터페이스 계약으로서의 OpenAI 호환성- OpenAI의 API 모양을 앱 계약으로 취급합니다. 모든 요청은 LiteLLM 프록시의 `/v1/*` 엔드포인트로 이동합니다.- 코드가 아닌 구성으로 모델(`gpt-4o` → `claude-3-5`)을 교체합니다.### 사용 사례별 모델 라우팅- 대기 시간에 민감한 경로: 빠르고 저렴한 모델로 라우팅합니다.- 추론 경로: 검색 증강 생성(RAG) 또는 도구 사용을 위해 더 높은 품질의 모델로 라우팅합니다.- 개인 정보 보호 경로: PII 세그먼트에 대해 로컬/Ollama로 라우팅합니다.### 비용 보호 장치- `user_id`/`team`으로 요청을 태깅합니다.- 팀/모델별로 예산을 설정합니다.- 토큰 사용량을 중앙 저장소에 기록하고 비정상적인 경우 경고합니다.### 복원력- 지터로 재시도를 활성화합니다.- 공급업체별로 시간 초과를 구성하고 반복되는 실패에 대한 회로 차단기를 구성합니다.- 공급업체 우선 순위와 명시적 폴백을 정의합니다.### 관찰 가능성- 요청/응답 메타데이터, 대기 시간 히스토그램 및 모델/버전을 캡처합니다.- 로그에서 비밀/PII를 수정합니다.- 서비스 전체에서 추적을 상호 연결하여 느린 호출을 빠르게 찾습니다.—## 예제 LiteLLM 프록시 구성 (프로덕션 준비 시작)```yaml# config.yamlmodel_list:- model_name: gpt-4olitellm_params:model: openai/gpt-4oapi_key: ${OPENAI_API_KEY}- model_name: claude-3-5-sonnetlitellm_params:model: anthropic/claude-3-5-sonnetapi_key: ${ANTHROPIC_API_KEY}- model_name: gemini-1.5-prolitellm_params:model: google/gemini-1.5-proapi_key: ${GOOGLE_API_KEY}defaults:timeout: 30smax_tokens: 1024routing:- name: low-latencymodels: .- 실용적인 예제 중심 기사입니다.- 시작하기 및 프록시 모범 사례에 대한 공식 LiteLLM 문서입니다.—## 실행 계획: 다음 7일1-2일차: 속성 코스 및 빠른 시작을 수행하고 첫 번째 프록시 요청을 수행합니다.3-4일차: 두 번째 공급업체 및 스트리밍을 추가합니다. 시간 초과, 재시도를 설정합니다.5일차: 구성으로 프록시를 설정합니다. 사용 사례별로 라우팅합니다(대기 시간 대 추론).6일차: 로깅, 비용 추적 및 수정을 추가합니다.7일차: 부하 테스트를 수행합니다. 공급업체 실패를 시뮬레이션합니다. 폴백을 확인합니다.—## 주요 내용- LiteLLM은 공급업체 종속 없이 다중 공급업체 LLM 앱으로 가는 가장 빠른 경로입니다.- OpenAI 호환 인터페이스로 시작한 다음 거버넌스를 위해 프록시로 레벨업합니다.- 라우팅, 복원력 및 관찰 가능성에 일찍 투자하십시오. 6개월이 아닌 2주차에 필요합니다.- 위의 튜토리얼은 매일 사용하는 것의 80%를 다룹니다. 나머지는 제품의 비밀 소스입니다.### FAQQ1:초보자를 위한 최고의 LiteLLM 튜토리얼은 무엇입니까?빠른 시각적 연습을 위해 YouTube에서 LiteLLM 속성 코스로 시작한 다음 프록시에 대한 공식 시작하기 가이드를 읽으십시오. DataCamp 튜토리얼은 복사할 수 있는 실용적인 예제를 제공합니다.Q2:LiteLLM을 OpenAI 호환 프록시로 어떻게 사용합니까?LiteLLM 프록시를 실행하고 SDK의 기본 URL을 프록시의 `/v1` 엔드포인트로 지정합니다. 애플리케이션 코드가 이식 가능하도록 공급업체 세부 정보를 LiteLLM 구성에 보관하십시오.Q3:LiteLLM은 OpenAI, Anthropic 및 Gemini 사이를 자동으로 라우팅할 수 있습니까?예. 대기 시간, 비용 또는 품질별로 공급업체 간에 전환하려면 LiteLLM 구성에서 모델 및 라우팅 전략을 정의합니다. 안정성을 위해 폴백을 설정할 수도 있습니다.Q4:LiteLLM으로 스트리밍 및 도구/함수 호출을 어떻게 활성화합니까?LiteLLM을 통해 OpenAI 호환 API를 사용하고 `stream=True`(또는 SDK에서 SSE)를 활성화합니다. 도구 호출의 경우 OpenAI 함수 호출 형식을 따르십시오. LiteLLM은 이를 대상 공급업체로 전달합니다.Q5:LiteLLM으로 비용을 제어하는 가장 빠른 방법은 무엇입니까?프록시를 통해 요청을 중앙 집중화하고, 사용량 로깅을 활성화하고, 키별 속도 제한 및 예산을 적용합니다. 다양한 워크로드를 비용에 최적화된 모델로 라우팅하고 놀라움을 피하기 위해 버전을 고정합니다.