피드로 돌아가기
The RegisterInfrastructure
원문 읽기
100kW 랙 내 최대 36,864 CPU 코어 집적을 통한 Agentic AI 인프라 구축
Intel and pals cram 36,864 CPU cores into a 100kW rack while chasing the agentic AI dragon
AI 요약
Context
AI 모델 추론은 GPU가 담당하나 API 연결 및 코드 인터프리터 등 Agent Harness는 여전히 CPU 기반으로 동작함. 대규모 Agentic Workload 처리를 위한 시스템 레벨의 고밀도 CPU 컴퓨팅 자원 확보가 필수적인 상황임.
Technical Solution
- Agentic AI의 도구 연결 및 제어 로직 최적화를 위한 Rack-scale Reference Design 도입
- Latency-sensitive 및 Maximum Density라는 두 가지 목적 기반의 아키텍처 분리 설계
- Granite Rapids(128코어) 및 Clearwater Forest(288코어) Xeon 6 프로세서 최대 128개 배치
- 100kW 전력 범위 내 최대 384TB DDR5 메모리를 통합한 고밀도 자원 배치
- Prefill 연산은 Nvidia GPU에, Decode 연산은 SambaNova 가속기에 분리 배치하는 Disaggregated Inference 구조 채택
Impact
- 최대 36,864 E-cores 및 384TB DDR5 메모리 확보를 통한 컴퓨팅 밀도 극대화
- Compute-heavy Prefill과 Bandwidth-intensive Decode의 분리를 통한 사용자당 토큰 출력량 2-3배 향상
실천 포인트
1. AI 에이전트 설계 시 모델 추론 외의 Harness 로직이 CPU 병목을 유발하는지 검토
2. 연산 특성(Prefill vs Decode)에 따라 가속기를 분리 배치하는 Disaggregated 아키텍처 고려
3. 전력 밀도(kW) 대비 컴퓨팅 자원(Core/Memory)의 효율적 배치 계획 수립