Arm이 자체 설계한 첫 데이터센터 CPU(AGI CPU)를 출시하며 라이선싱 중심 사업에서 자체 칩 제조로 전환

Arm rolls its own 136-core AGI CPU to chase AI hype train

Tobias Mann2026년 3월 24일8분intermediate

AI 요약

Context

AI 에이전트 시스템(OpenClaw 등)의 확산으로 GPU 중심의 AI 인프라에서 범용 CPU의 중요성이 재부상하고 있다. Arm은 지금까지 칩 IP 및 명령어 집합 아키텍처 라이선싱만 수행했으나, AI 에이전트 워크로드 수요의 4배 증가를 예측하고 직접 CPU를 제조하기로 결정했다.

Technical Solution

Neoverse V3 코어 기반 설계: 136개의 Neoverse V3 코어를 3.7 GHz(기본 3.2 GHz)로 구성하여 AI 에이전트 실행에 최적화
TSMC 3nm 공정 적용: 2개 다이를 TSMC 3nm으로 제조하여 전력 효율성 확보(300W TDP)
메모리 계층 최적화: L2 캐시 2MB/코어 + 공유 시스템 캐시 128MB, DDR5 12채널(6채널/다이) 지원으로 825 GB/s 대역폭 제공(코어당 6 GB/s)
메모리-I/O 통합 설계: 메모리 및 I/O 함수를 컴퓨팅 다이와 동일 다이에 집적하여 레이턴시 최소화 및 NUMA 2개 도메인 구성
단일 스레드 실행 모델: Simultaneous multithreading 제거하고 코어당 1개 스레드만 허용하여 결정적 성능 확보
레거시 제거: 레거시 애플리케이션 지원 기능을 의도적으로 제외하여 다이 면적을 AI 에이전트 워크로드 최적화에 집중
I/O 확장성: PCIe 6.0 96레인 및 CXL 3.0 지원

Impact

액침식 냉각 랙 구성: 42개 8노드 서버로 45,696코어 달성(Nvidia Vera ETL256의 22,528코어 대비 2배 이상)
공기냉각 랙 구성: 30개 블레이드로 8,160코어 구성(36kW 전력)

Key Takeaway

AI 에이전트 같은 새로운 워크로드 패턴이 기존 칩 설계 가정(레거시 지원, 멀티스레딩 등)을 무효화할 때, 화이트보드부터 시작하는 목적 특화 설계가 다이 효율을 극대화하는 유효한 전략이 된다. 특히 메모리 대역폭과 결정적 성능이 요구되는 시스템에서는 멀티스레딩 제거와 통합 메모리 I/O 아키텍처가 트레이드오프 없는 최적화 기회다.

실천 포인트

AI 인프라 아키텍처를 설계하는 팀에서 CPU 선정 시, 단순히 코어 수와 클록 속도가 아닌 메모리 대역폭(GB/s), 캐시 크기, NUMA 도메인 구성을 측정하고, 에이전트 시스템의 워크로드 특성(세밀한 동시성 vs 처리량)에 맞는 스레딩 모델을 검증하면 불필요한 전력 소비와 레이턴시 회피가 가능하다.

태그

#CPU #AI Agents #Arm #Datacenter Hardware #TSMC

원문 읽기