HBC 아키텍처 기반 133 TB/s 유효 대역폭 달성 및 추론 최적화

Qualcomm's proposed solution to catch up in AI infra: Bury the compute under the DRAM

2026년 6월 30일7분advanced

AI 요약

Context

전통적인 GPU 아키텍처의 HBM-Compute Die 간 데이터 이동으로 인한 전력 소모 및 발열 병목 발생. 특히 LLM Decode 단계의 메모리 대역폭 제한이 전체 추론 성능을 저하시키는 핵심 제약 사항으로 작용.

Technical Solution

XPU 상단에 DRAM을 수직 적층한 High-Bandwidth Compute(HBC) 구조 설계
Through-Silicon Vias(TSVs) 연결을 통한 Compute-Memory 간 물리적 거리 단축으로 전력 효율 개선
메모리 바운드 연산을 Base Die에서 직접 수행하여 SoC로 전송되는 데이터 양을 최소화하는 Effective Bandwidth 증폭 전략 채택
Prompt Processing(GPU)과 Memory-intensive Decode(AI250)를 분리한 Disaggregated Inference 아키텍처 구성
Mojo 및 Max 플랫폼 도입을 통한 CUDA 의존성 제거 및 하드웨어 추상화 레이어 확보

Impact

AI250 카드당 최대 768 GB 메모리 용량 및 133 TB/s 유효 메모리 대역폭 제공
AI200 대비 AI250은 18배, AI300은 54배의 유효 대역폭 확장 전망
SRAM 기반 LPU 대비 높은 메모리 밀도와 HBM 솔루션 대비 낮은 비용의 실리콘 인터포저 제거 효과 달성

Key Takeaway

전체 연산 능력을 높이는 대신 워크로드 특성에 따라 Compute-in-Memory 구조를 부분 도입하여 데이터 이동 비용을 최소화하는 효율 중심의 계층적 설계 원칙

실천 포인트

- LLM 서비스 설계 시 Prefill과 Decode 단계의 리소스 요구사항을 분리하여 인프라를 구성했는지 검토 - 데이터 전송 비용이 연산 비용보다 큰 Memory-bound 작업의 경우, 데이터 근접 컴퓨팅(Near-Memory Computing) 적용 가능성 분석 - 특정 벤더 런타임(CUDA 등) 종속성을 줄이기 위한 하드웨어 추상화 인터페이스 도입 고려

태그

#Through-Silicon Vias #Disaggregated Inference #LLM Decode #Near-Memory Computing #High-Bandwidth Compute

원문 읽기