100kW 랙 내 최대 36,864 CPU 코어 집적을 통한 Agentic AI 인프라 구축

Intel and pals cram 36,864 CPU cores into a 100kW rack while chasing the agentic AI dragon

2026년 6월 2일2분advanced

AI 요약

Context

AI 모델 추론은 GPU가 담당하나 API 연결 및 코드 인터프리터 등 Agent Harness는 여전히 CPU 기반으로 동작함. 대규모 Agentic Workload 처리를 위한 시스템 레벨의 고밀도 CPU 컴퓨팅 자원 확보가 필수적인 상황임.

Agentic AI의 도구 연결 및 제어 로직 최적화를 위한 Rack-scale Reference Design 도입
Latency-sensitive 및 Maximum Density라는 두 가지 목적 기반의 아키텍처 분리 설계
Granite Rapids(128코어) 및 Clearwater Forest(288코어) Xeon 6 프로세서 최대 128개 배치
100kW 전력 범위 내 최대 384TB DDR5 메모리를 통합한 고밀도 자원 배치
Prefill 연산은 Nvidia GPU에, Decode 연산은 SambaNova 가속기에 분리 배치하는 Disaggregated Inference 구조 채택

실천 포인트

1. AI 에이전트 설계 시 모델 추론 외의 Harness 로직이 CPU 병목을 유발하는지 검토

2. 연산 특성(Prefill vs Decode)에 따라 가속기를 분리 배치하는 Disaggregated 아키텍처 고려

3. 전력 밀도(kW) 대비 컴퓨팅 자원(Core/Memory)의 효율적 배치 계획 수립

태그