피드로 돌아가기
The RegisterAI/ML
원문 읽기
Wafer-Scale Engine 통한 21 PB/s 대역폭 및 초고속 LLM 추론 달성
Cerebras risked it all on dinner plate-sized AI accelerators a decade ago. Today it’s worth $66 billion
AI 요약
Context
기존 GPU 아키텍처는 작은 다이(Die)를 절단하여 NVLink 등 외부 인터커넥트로 연결하는 방식에 의존함. 이 과정에서 발생하는 통신 오버헤드와 메모리 대역폭 병목 현상이 대규모 AI 모델 학습 및 추론의 주요 제약 사항으로 작용함.
Technical Solution
- Wafer-Scale Engine(WSE) 설계를 통한 웨이퍼 전체 크기(46,225 $\text{mm}^2$)의 거대 단일 칩 구현으로 인터커넥트 오버헤드 제거
- on-chip SRAM 중심의 메모리 구조를 채택하여 HBM 대비 압도적인 데이터 접근 속도 확보
- Sparse Matrix Multiply-Accumulate 연산 최적화를 통한 하드웨어 레벨의 Sparsity 지원으로 실질 연산 효율 극대화
- TSMC 7nm 및 5nm 공정 전환을 통한 트랜지스터 밀도 및 SRAM 용량의 단계적 확장
- Speculative Decoding 기법을 결합하여 SRAM의 고대역폭을 활용한 토큰 생성 속도 최적화
- Decode Accelerator로서의 포지셔닝을 통해 Prompt Processing과 Bandwidth-intensive한 Decode 단계를 분리하는 하이브리드 구조 제안
Impact
- WSE-3 기준 125 petaFLOPS(Sparse) 연산 성능 달성
- 21 PB/s의 메모리 대역폭 구현으로 Nvidia Rubin GPU 대비 약 1000배 빠른 속도 확보
- GPT-OSS 120B 모델 기준 초당 2,200개 이상의 토큰 생성(경쟁사 대비 2.8배 빠른 속도)
Key Takeaway
물리적 칩 크기의 한계를 극복한 Wafer-Scale 접근법이 메모리 병목을 근본적으로 해결하며, 특정 워크로드(LLM Inference)에서 하드웨어 특성(SRAM)과 알고리즘(Speculative Decoding)의 정렬이 폭발적인 성능 향상을 가져옴.
실천 포인트
- 추론 성능 병목이 Compute-bound인지 Memory-bound인지 명확히 구분하여 가속기 선정 - 모델 가중치의 Sparsity 비율을 분석하여 하드웨어 가속 효율성 검토 - 대규모 모델 배포 시 SRAM 용량 제한에 따른 Model Pruning 또는 Sharding 전략 수립 - Decode 단계의 대역폭 요구량을 분석하여 전용 Decode Accelerator 도입 타당성 검토