LPDDR5x 기반 480GB 메모리로 Prefill 가속화하는 Intel Crescent Island

Intel's mysterious new datacenter GPU is what Nvidia's Rubin CPX nearly was

2026년 6월 4일4분advanced

AI 요약

Context

LLM 추론 과정이 Prefill과 Decode 단계로 분리되는 Disaggregated Compute Architecture로 전환되는 추세임. 기존 HBM 기반 GPU는 높은 비용과 공급망 제약으로 인해 Compute-bound 특성의 Prefill 단계까지 전담하기에는 경제적 효율성이 낮음.

Technical Solution

고가의 HBM 대신 LPDDR5x 메모리를 채택하여 최대 480GB의 대용량 메모리 공간 확보
메모리 대역폭 희생 대신 PCIe 폼팩터와 공냉식 설계를 통한 인프라 도입 비용 절감
Compute-bound 특성을 가진 Prefill 단계의 연산을 전담하여 HBM 기반 GPU의 부하를 분산하는 구조 설계
Xe-3P 마이크로아키텍처 적용을 통한 FP8 및 FP4 데이터 타입 지원으로 연산 밀도 향상
Nvidia Dynamo 및 LLMd 프레임워크를 통한 Prefill-Decode 분리 추론 워크플로우 구현

실천 포인트

1. LLM 추론 파이프라인에서 Prefill과 Decode 단계의 자원 사용 패턴을 분석하여 워크로드 분리 가능성 검토

2. 무조건적인 고성능 메모리(HBM) 채택보다 데이터 타입(FP4/FP8) 최적화와 메모리 용량 확대 중 우선순위 결정

3. 이기종 가속기 간의 오케스트레이션을 위한 분산 추론 프레임워크(Dynamo, LLMd 등) 도입 고려

태그

#Disaggregated Compute #LPDDR5X #Xe-3P #Prefill #Inference Optimization

원문 읽기