피드로 돌아가기
Dev.toAI/ML
원문 읽기
XGBoost 기반 예측 라우팅으로 TTFT 70% 단축 및 튜닝 자동화 달성
The Most Important Announcement at NEXT '26 Was a Sidecar
AI 요약
Context
LLM 추론 클러스터에서 Round-robin이나 단순 Least-connections 방식은 KV Cache 상태와 요청 길이를 반영하지 못하는 한계 존재. 기존의 Load+Prefix Scorer 방식은 수동 가중치 튜닝에 의존하여 트래픽 패턴 변화에 따른 성능 저하 및 유지보수 비용 증가 발생.
Technical Solution
- Endpoint Picker(EPP)의 Sidecar로 소규모 XGBoost Regressor를 배치하여 추론 경로의 런타임 오버헤드 최소화
- KV Cache 이용률, 입력 길이, 큐 깊이 등 6가지 핵심 Feature를 기반으로 TTFT 및 TPOT를 실시간 예측
- 예측된 지연 시간을 바탕으로 최적의 Pod를 선택하는 Latency-aware Routing 구조 설계
- 요청 헤더의 SLO 정보를 활용하여 최소 여유 공간이 있는 Pod에 배치하는 Best-fit Packing 전략 적용
- Trainer Sidecar를 통해 슬라이딩 윈도우 방식으로 데이터를 수집하고 모델을 지속적으로 재학습하는 Closed-loop 피드백 루프 구현
실천 포인트
1. 정적 가중치 기반의 로드밸런싱 알고리즘이 트래픽 변동에 따라 성능 저하를 일으키는지 검토
2. 요청의 특성(Input Length)과 리소스 상태(Cache Usage)를 Feature로 추출하여 예측 모델 도입 가능성 분석
3. 모델 복잡도를 높이기보다 추론 경로의 지연 시간을 줄일 수 있는 Sidecar 패턴 적용 고려
4. 수동 튜닝 포인트가 많은 시스템을 데이터 기반의 자동 재학습 구조로 전환하는 로드맵 수립