피드로 돌아가기
InfoQInfoQ
Infrastructure

Disaggregated Prefill과 Infire 엔진을 통한 LLM 인프라 최적화

Cloudflare Builds High-Performance Infrastructure for Running LLMs

Renato Losio2026년 5월 3일3advanced

Context

LLM 추론 시 Prefill 단계의 Compute-bound 특성과 Decode 단계의 Memory-bound 특성이 혼재함에 따른 자원 효율성 저하 발생. 특히 1조 개 이상의 파라미터를 가진 거대 모델은 메모리 요구량이 극심하여 일반적인 vLLM 기반 부팅조차 어려운 하드웨어 제약 존재.

Technical Solution

  • Prefill과 Decode 단계를 물리적으로 분리한 Disaggregated Prefill 구조 설계로 각 단계별 최적화된 하드웨어 자원 할당
  • Pipeline Parallelism의 Stage별 Load Balancing을 통한 GPU Starvation 현상 제거
  • Tensor Parallelism 적용 시 Cross-GPU Communication 오버헤드 최소화 전략 구현
  • 하이브리드 병렬 처리(Pipeline + Tensor Parallelism) 조합을 통한 Throughput과 Latency의 최적 균형점 확보
  • 자체 추론 엔진 Infire 도입으로 내부 프로세스 메모리 점유율 감소 및 모델 기동 속도 개선
  • Unweight 시스템을 통한 모델 가중치 15~22% 압축으로 GPU 데이터 전송량 및 메모리 부하 경감

1. LLM 추론 병목이 Compute-bound(Prefill)인지 Memory-bound(Decode)인지 분석하여 자원 할당 분리 검토

2. Pipeline Parallelism 도입 시 Stage 간 처리 시간 불균형에 따른 GPU 유휴 상태 여부 확인

3. Tensor Parallelism 적용 시 GPU 간 통신 오버헤드가 전체 성능에 미치는 영향 측정

4. 가중치 압축(Quantization/Compression)을 통한 메모리 풋프린트 감소 및 전송 효율 개선 검토

원문 읽기