Adaptive Hedged Requests를 통한 p99 Latency 74% 감소

Article: Stragglers, Not Failures: How Adaptive Hedged Requests Reduce p99 Latency by 74 Percent

Prathamesh Bhope2026년 5월 28일17분advanced

AI 요약

Context

Fan-out 아키텍처에서 개별 서비스의 낮은 Straggler 비율이 누적되어 전체 시스템의 p99 Latency를 심각하게 저하시키는 구조적 한계 발생. 단순 Retry 방식은 이미 부하가 걸린 Backend에 추가 요청을 보내 Load Amplification을 유발하는 역효과 초래.

Technical Solution

Straggler와 Failure를 구분하여 단순 재시도가 아닌 Proactive하게 백업 요청을 보내는 Hedged Request 구조 설계
DDSketch를 도입하여 O(1) 시간 복잡도와 $\pm 1%$ 오차 범위 내에서 실시간 Latency Distribution 추적
Static Threshold의 한계를 극복하기 위해 트래픽 변화에 따라 임계치를 스스로 조정하는 Adaptive Mechanism 구현
Token Bucket Budget을 통해 Hedge Rate를 제어함으로써 전체 시스템 장애 시 Load-doubling Spiral 방지
LLM Inference 워크로드 대응을 위해 Header 수신 시점이 아닌 First Token delivery 시점에 Latency를 측정하는 정밀 모니터링 적용

실천 포인트

1. p99 지표 악화 시 단순 Retry 적용 전 Straggler 발생 여부 확인

2. Fan-out 규모에 따른 시스템 전체 p99 확률 계산($1 - (1-p)^n$)

3. 실시간 Quantile 추정을 위해 DDSketch 같은 Constant-memory 구조 검토

4. Hedge Request 도입 시 Token Bucket 기반의 상한선 설정으로 Cascade Failure 방지

태그

#Tail Latency #DDSketch #Fan-out Architecture #Load Amplification #Hedged Requests

원문 읽기