피드로 돌아가기
Veltrix and the Day the Trace Loops Broke
Dev.toDev.to
Infrastructure

Admission Controller 도입을 통한 p95 Latency 4.1s에서 57ms로 최적화

Veltrix and the Day the Trace Loops Broke

Lisa Zulu2026년 5월 28일4advanced

Context

treasure-hunt-engine의 DNS polling 기반 Worker Pool discovery 알고리즘으로 인한 리소스 과소비 및 p99 Latency 급증(45ms → 3.2s) 발생. Mixed Workload 환경에서 부적절한 CPU/Memory Threshold 설정으로 인한 Worker Churn 및 Pod Collision 문제 직면.

Technical Solution

  • treasure-hunt-engine 제거 후 Lua 기반 정책 엔진을 탑재한 Admission Controller 'veltrim' 도입
  • CPU 사용률 30% 미만 및 llm-cache-miss 태그 부재라는 두 가지 Predicate 기반의 Scale-down 제어 로직 구현
  • Model Snapshot으로 인한 OOM 방지를 위해 Pod Template의 Resource Requests(CPU 500m, Memory 1200Mi) 명시적 정의
  • Warm Pod 유지 및 Noisy Neighbor 방지를 위해 최소 30분 유지 시간 및 Node당 최대 Pod 수(12개) 제한 설정
  • Scale-down 요청 시 6ms의 오버헤드를 감수하며 1.8s의 Pod Ready 대기 시간을 제거한 효율적 아키텍처 설계

1. Staging 환경의 Synthetic Load가 Production의 Mixed Workload 특성을 반영하는지 검증했는가?

2. Autoscaling 정책에 리소스 지표 외에 비즈니스 로직(Cache, Session) 기반의 Predicate를 포함했는가?

3. Admission Controller 도입 시 장애 전파 방지를 위한 Circuit Breaker(Timeout 설정 및 Default Action)를 설계했는가?

4. Resource Threshold를 개별 Operator가 수정하지 못하도록 Terraform 등으로 Single Source of Truth를 강제했는가?

원문 읽기