피드로 돌아가기
Async Batching Is the Real Latency Win Nobody's Talking About
Dev.toDev.to
AI/ML

Async Continuous Batching을 통한 p99 Tail Latency 최적화

Async Batching Is the Real Latency Win Nobody's Talking About

Aamer Mihaysi2026년 5월 15일3advanced

Context

기존 Synchronous Batching 구조에서 발생하는 Request 간 상호 의존성으로 인한 Tail Latency 스파이크 발생. 특히 가장 긴 시퀀스가 완료될 때까지 전체 배치가 대기하는 구조적 병목으로 GPU Idle 타임 증가 및 자원 낭비 초래.

Technical Solution

  • Scheduling Loop와 Forward Pass의 완전한 Decoupling을 통한 비동기 처리 구조 설계
  • GPU의 Step T 연산과 Scheduler의 Step T+1 배치 준비 과정을 중첩시킨 Pipelining 구현
  • 완료된 시퀀스를 즉시 제거하고 신규 요청을 삽입하는 Preemption 메커니즘 적용
  • Tool Call 등 비결정적 지연 시간이 발생하는 Agent 워크로드의 일시적 제외 및 복귀 처리 로직 도입
  • TGI의 전용 Scheduling Thread 또는 vLLM의 CUDA Graph 내 비동기 로직 통합을 통한 구현

1. p99 Latency가 Median 대비 3배 이상 높은지 확인하여 Synchronous Batching 병목 여부 진단

2. Agent 워크로드 도입 시 Tool Call 지연 시간이 GPU Compute Stall로 이어지는지 모니터링

3. 하드웨어 교체 전 Scheduler의 비동기 처리 최적화를 통한 소프트웨어 레벨의 처리량 개선 검토

원문 읽기