피드로 돌아가기
Building the foundation for running extra-large language models
Cloudflare BlogCloudflare Blog
AI/ML

PD Disaggregation 및 Infire 엔진 통한 Token Latency 3배 개선

Building the foundation for running extra-large language models

Vlad Krasnov2026년 4월 16일10advanced

Context

LLM 추론 시 Prefill(Compute-bound)과 Decode(Memory-bound) 단계가 단일 머신에서 상호 블록(Block)하는 병목 현상 발생. 특히 Agent 기반 서비스 특성상 거대한 System Prompt와 누적되는 Context로 인해 입력 토큰 처리 부하가 급증하는 구조적 한계 직면.

Technical Solution

  • Prefill과 Decode 서버를 분리하여 각 단계의 하드웨어 특성에 맞게 독립적 튜닝 및 스케일링이 가능한 PD Disaggregation 아키텍처 도입
  • Prefill 서버에서 생성된 KV Cache를 Decode 서버로 전송하여 중복 연산을 제거하는 효율적 파이프라인 설계
  • KV Cache 전송 정보 및 Streaming SSE 응답을 동적으로 재작성하는 Token-aware Load Balancer 구현을 통한 부하 분산 최적화
  • x-session-affinity 헤더 기반의 세션 고정 라우팅으로 기존 연산된 입력 텐서를 재사용하는 Prompt Caching 전략 적용
  • Pipeline Parallelism과 Tensor Parallelism을 병행 적용하여 GPU 간 통신 오버헤드 최소화 및 처리량 극대화
  • 내부 상태(Activation) 메모리 점유율을 최적화한 전용 추론 엔진 Infire 개발을 통한 GPU 메모리 효율 제고

- 추론 워크로드의 Input/Output 토큰 비율 분석을 통한 서버 리소스 최적화 수행 - 고정된 컨텍스트가 많은 서비스의 경우 Session-affinity 기반의 캐시 라우팅 도입 검토 - 모델 규모 증가 시 Pipeline 및 Tensor Parallelism의 조합을 통한 통신 병목 지점 최적화 - vLLM 등 범용 프레임워크의 메모리 오버헤드 분석 및 전용 엔진 도입을 통한 하드웨어 비용 절감 가능성 검토

원문 읽기