PD Disaggregation 및 Infire 엔진 통한 Token Latency 3배 개선

Building the foundation for running extra-large language models

Vlad Krasnov2026년 4월 16일10분advanced

AI 요약

Context

LLM 추론 시 Prefill(Compute-bound)과 Decode(Memory-bound) 단계가 단일 머신에서 상호 블록(Block)하는 병목 현상 발생. 특히 Agent 기반 서비스 특성상 거대한 System Prompt와 누적되는 Context로 인해 입력 토큰 처리 부하가 급증하는 구조적 한계 직면.

Technical Solution

Prefill과 Decode 서버를 분리하여 각 단계의 하드웨어 특성에 맞게 독립적 튜닝 및 스케일링이 가능한 PD Disaggregation 아키텍처 도입
Prefill 서버에서 생성된 KV Cache를 Decode 서버로 전송하여 중복 연산을 제거하는 효율적 파이프라인 설계
KV Cache 전송 정보 및 Streaming SSE 응답을 동적으로 재작성하는 Token-aware Load Balancer 구현을 통한 부하 분산 최적화
x-session-affinity 헤더 기반의 세션 고정 라우팅으로 기존 연산된 입력 텐서를 재사용하는 Prompt Caching 전략 적용
Pipeline Parallelism과 Tensor Parallelism을 병행 적용하여 GPU 간 통신 오버헤드 최소화 및 처리량 극대화
내부 상태(Activation) 메모리 점유율을 최적화한 전용 추론 엔진 Infire 개발을 통한 GPU 메모리 효율 제고

실천 포인트

- 추론 워크로드의 Input/Output 토큰 비율 분석을 통한 서버 리소스 최적화 수행 - 고정된 컨텍스트가 많은 서비스의 경우 Session-affinity 기반의 캐시 라우팅 도입 검토 - 모델 규모 증가 시 Pipeline 및 Tensor Parallelism의 조합을 통한 통신 병목 지점 최적화 - vLLM 등 범용 프레임워크의 메모리 오버헤드 분석 및 전용 엔진 도입을 통한 하드웨어 비용 절감 가능성 검토

태그

#Tensor Parallelism #Pipeline Parallelism #KV Cache #Prompt Caching #PD Disaggregation

원문 읽기