피드로 돌아가기
Hacker NewsAI/ML
원문 읽기
HBM 제거 및 M3D 기반 330GB 온다이 DRAM으로 80B 모델 7.2만 tok/s 달성
Sophon PFG-1: a monolithic-3D AI ASIC with 330 GB of on-die DRAM and no HBM
AI 요약
Context
기존 GPU 아키텍처는 저배치(Low-batch) 추론 시 HBM 대역폭 제한으로 인한 Memory-bound 병목 현상 발생. HBM4 도입으로도 해결 불가능한 Weight-memory 대역폭 한계와 고비용의 BOM 구조가 핵심 제약 사항임.
Technical Solution
- 2D-TMD 기반 Monolithic 3D(M3D) 플랫폼을 통한 32층 로직-메모리 교차 적층 구조 설계
- HBM을 완전히 제거하고 2T0C Gain-cell DRAM을 BEOL Metal-3 레이어에 통합하여 330GB 온다이 용량 확보
- 90nm-pitch MIV(Monolithic Inter-tier Via)를 통한 MAC-to-cell 수직 연결로 NoC 트래픽 없는 전용 포트 구현
- Pure Digital Compute-In-Memory(CIM) 방식을 채택하여 500MHz 비트-시리얼 활성화 브로드캐스트 기반 연산 수행
- 동일 실리콘 상에서 BF16 학습(Forward/Backward)과 저배치 추론을 유연하게 전환하는 단일 칩 구조 설계
- Speculative Decoding 및 INT4 양자화, MoE 희소성을 결합한 워크로드 가속으로 유효 처리량 극대화
Impact
- NVIDIA Rubin 대비 80B 모델 저배치 추론 효율 약 174배 향상(38.7 tokens/s per W)
- HBM 제거를 통한 하드웨어 BOM 비용 약 9.9~11.6배 절감($8,358)
- 80B FP8 모델 기준 단일 칩에서 최대 72,188 tokens/s의 유효 처리량 기록
- HBM4 패키지 대비 Weight 대역폭을 최대 214배까지 확장
Key Takeaway
메모리 벽(Memory Wall) 문제를 해결하기 위해 메모리를 연산 유닛으로 이동시키는 CIM과 3D 적층 기술의 결합이 필수적이며, 이는 단순한 하드웨어 가속을 넘어 데이터 이동 거리의 물리적 최소화가 시스템 성능의 핵심 결정 요인임을 시사함.
실천 포인트
- Low-batch 추론 시스템 설계 시 Compute-bound가 아닌 Memory-bound 지점의 대역폭 수치 정밀 분석 - 모델 파라미터 크기에 따른 온칩 메모리 적재 가능 여부와 외부 메모리 접근 횟수 최적화 검토 - Quantization 및 Speculative Decoding 도입 시 실제 메모리 대역폭 절감분과 연산 오버헤드 간의 Trade-off 측정