피드로 돌아가기
The RegisterInfrastructure
원문 읽기
HBC 아키텍처 기반 133 TB/s 유효 대역폭 달성 및 추론 최적화
Qualcomm's proposed solution to catch up in AI infra: Bury the compute under the DRAM
AI 요약
Context
전통적인 GPU 아키텍처의 HBM-Compute Die 간 데이터 이동으로 인한 전력 소모 및 발열 병목 발생. 특히 LLM Decode 단계의 메모리 대역폭 제한이 전체 추론 성능을 저하시키는 핵심 제약 사항으로 작용.
Technical Solution
- XPU 상단에 DRAM을 수직 적층한 High-Bandwidth Compute(HBC) 구조 설계
- Through-Silicon Vias(TSVs) 연결을 통한 Compute-Memory 간 물리적 거리 단축으로 전력 효율 개선
- 메모리 바운드 연산을 Base Die에서 직접 수행하여 SoC로 전송되는 데이터 양을 최소화하는 Effective Bandwidth 증폭 전략 채택
- Prompt Processing(GPU)과 Memory-intensive Decode(AI250)를 분리한 Disaggregated Inference 아키텍처 구성
- Mojo 및 Max 플랫폼 도입을 통한 CUDA 의존성 제거 및 하드웨어 추상화 레이어 확보
Impact
- AI250 카드당 최대 768 GB 메모리 용량 및 133 TB/s 유효 메모리 대역폭 제공
- AI200 대비 AI250은 18배, AI300은 54배의 유효 대역폭 확장 전망
- SRAM 기반 LPU 대비 높은 메모리 밀도와 HBM 솔루션 대비 낮은 비용의 실리콘 인터포저 제거 효과 달성
Key Takeaway
전체 연산 능력을 높이는 대신 워크로드 특성에 따라 Compute-in-Memory 구조를 부분 도입하여 데이터 이동 비용을 최소화하는 효율 중심의 계층적 설계 원칙
실천 포인트
- LLM 서비스 설계 시 Prefill과 Decode 단계의 리소스 요구사항을 분리하여 인프라를 구성했는지 검토 - 데이터 전송 비용이 연산 비용보다 큰 Memory-bound 작업의 경우, 데이터 근접 컴퓨팅(Near-Memory Computing) 적용 가능성 분석 - 특정 벤더 런타임(CUDA 등) 종속성을 줄이기 위한 하드웨어 추상화 인터페이스 도입 고려
태그