ITL Raw Aggregation 기반 LLM 추론 성능 분석 프레임워크 설계

How to Benchmark LLM Inference Performance: TTFT, ITL, and Throughput Metrics

Wayne2026년 4월 26일4분intermediate

AI 요약

Context

기존 벤치마킹 도구의 Request별 평균 ITL 계산 방식에 따른 Latency Spike 누락 문제 발생. Docker 의존성 및 특정 프레임워크 설치 요구로 인한 환경 구축의 복잡성과 낮은 이식성 확인.

Rust 기반 단일 바이너리 설계를 통한 의존성 제거 및 런타임 오버헤드 최소화
Request별 평균값이 아닌 모든 Token의 ITL 원시 데이터를 통합한 Global Aggregation 방식 채택으로 P99 Outlier 보존
OpenAI-compatible API의 usage 필드 우선 활용 및 모델별 전용 HuggingFace Tokenizer 지원을 통한 토큰 카운트 정확도 확보
KV Cache 한계 도달 시 발생하는 Preemption 현상을 ITL Spike 분석으로 식별하는 모니터링 로직 구현
finish_reason=length 검증 절차를 도입하여 조기 종료로 인한 RPM/Latency 왜곡 방지

실천 포인트

1. LLM 성능 측정 시 평균 ITL 대신 P99/Max ITL을 확인하여 KV Cache Preemption 여부 검토

2. Prefill TPS 측정 시 Queue Wait Time이 포함됨을 인지하고 Pure Processing Time과 분리하여 분석

3. 모델별 Vocab Size 차이에 따른 토큰 수 오차를 방지하기 위해 전용 Tokenizer 적용 여부 확인

4. 벤치마킹 결과의 신뢰성 확보를 위해 모든 응답이 max_tokens에 도달했는지 finish_reason 검증

태그