피드로 돌아가기
Dev.toInfrastructure
원문 읽기
LiteLLM의 런타임 한계를 극복한 In-memory Gateway 설계 및 물리적 격리 구현
When to Move Beyond LiteLLM (And When Not To)
AI 요약
Context
LiteLLM 기반의 AI Gateway 운영 시 트래픽 증가에 따른 Redis/Postgres 의존도 심화로 인한 운영 복잡도 증가. 특히 다수 인스턴스 환경에서 예산 집행의 동시성 제어 문제와 외부 Guardrail 서비스 호출로 인한 네트워크 홉 증가 및 컴플라이언스 리스크 발생.
Technical Solution
- Request Hot Path 내 Auth, Rate Limiting, Budget Enforcement를 In-memory 방식으로 통합하여 외부 캐시 호출 제거
- PII/PHI 탐지 로직을 In-process로 구현하여 외부 서비스 의존성 제거 및 Air-gapped 환경 대응
- Logical isolation 수준의 가상 키 방식에서 Kubernetes Namespace 기반의 Physical Tenant Isolation 구조로 전환하여 인프라 계층의 격리 보장
- Python Async 런타임의 예측 불가능한 레이턴시를 해결하기 위해 정적 타입 컴파일 언어 기반의 Gateway 설계 적용
- 모델 라우팅과 자체 모델 배포(Self-hosted Model Deployment)를 단일 Control Plane에서 통합 관리하는 구조 채택
실천 포인트
1. 10개 이상의 Gateway 인스턴스 운영 시 분산 락 및 DB Deadlock 가능성 검토
2. 규제 준수가 필요한 워크로드의 경우 외부 Guardrail 서비스의 DPA 리뷰 및 In-process 대체 가능성 확인
3. 엄격한 비용 통제가 필요한 경우 After-the-fact 방식의 예산 체크가 허용되는 범위인지 분석
4. 단순 논리적 격리(Logical Isolation)가 보안 요구사항을 충족하는지 검토 후 필요 시 Namespace 격리 도입