TTFT 186배 폭증을 통해 발견한 LLM 추론 큐 병목 현상

99% of Requests Failed and My Dashboard Showed Green

NaveenKumar Namachivayam ⚡2026년 5월 13일4분intermediate

AI 요약

Context

단일 사용자 기반의 Baseline 테스트로 인해 LLM 배포 환경의 잠재적 성능 결함 간과. 단순 Request Throughput 지표만으로는 실제 사용자 경험(UX)의 저하를 탐지하지 못하는 모니터링의 한계 발생.

실천 포인트

1. LLM 성능 테스트 시 단일 사용자 테스트를 배제하고 Realistic Concurrency 설정 적용

2. TTFT와 ITL을 개별 지표로 분리하여 Prefill 단계와 Generation 단계의 병목 구분

3. 단순 Throughput 대신 서비스 수준 협약(SLO)을 반영한 Goodput 지표 측정

4. Queue 대기 시간 증가 여부를 확인하여 인프라 확장 방향(Vertical vs Horizontal) 결정

태그