피드로 돌아가기
Dev.toAI/ML
원문 읽기
vLLM 자가 호스팅 전환으로 p99 지연시간 60% 및 비용 78% 절감
War Story: We Migrated from Hugging Face Inference API to Self-Hosted LLMs and Cut Latency by 60%
AI 요약
Context
Hugging Face Inference API(HFIA) 사용에 따른 p99 지연시간 2.8초 도달 및 월 $22k의 과도한 비용 발생. HFIA의 Server-side Batching으로 인한 저동시성 워크로드의 지연시간 증가와 엄격한 Rate Limit으로 인한 신규 기능 확장 제약 상황.
Technical Solution
- 8x NVIDIA A100 80GB GPU 기반 vLLM 0.4.3 도입을 통한 인프라 자가 호스팅 구조 설계
- Continuous Batching 기술 적용으로 HFIA의 Static Batching 대비 5배 수준의 지연시간 페널티 제거
- Llama 3 8B Q4_K_M Quantization 적용으로 추론 효율성 및 Throughput 극대화
- vLLM Prefix Caching 활성화를 통한 모델 Cold Start 시간을 12초에서 2.1초로 단축
- ArgoCD 기반 GitOps 파이프라인 구축을 통한 Canary Deployment 및 모델 버전 관리 체계 수립
- AWS Direct Connect(100Gbps) 연결로 온프레미스 GPU 클러스터와 AWS 간 네트워크 지연시간 2ms 미만 유지
Impact
- p99 Latency: 2.8s → 1.12s (60% 감소)
- Monthly Cost: $22,000 → $4,800 (78% 절감)
- Throughput: 16 Concurrent 기준 9.2 req/s → 29.8 req/s (3.2배 향상)
- GPU 하드웨어 투자 비용 회수 기간: 11주 소요
Key Takeaway
저동시성 트래픽 비중이 높은 워크로드일수록 Managed API의 Static Batching보다 자가 호스팅 기반 Continuous Batching이 압도적인 성능 우위를 가짐. 특정 임계치 이상의 토큰 사용량 발생 시 Managed API의 마진 구조보다 전용 인프라 구축이 비용 및 제어권 측면에서 유리함.
실천 포인트
- 월 5M 토큰 이상의 LLM 워크로드 운영 시 자가 호스팅 비용 효율성 검토 - 저동시성 요청 비중이 높다면 Continuous Batching 지원 엔진(vLLM 등) 도입 고려 - 모델 업데이트 시 정확도 하락 방지를 위한 Canary Deployment 및 롤백 전략 수립 - Cold Start 최소화를 위한 Prefix Caching 설정 적용 여부 확인