피드로 돌아가기
Dev.toAI/ML
원문 읽기
NVLink-C2C 기반 128GB Unified Memory로 PCIe 병목 제거
NVIDIA RTX Spark Superchip: Unified CPU–GPU Memory
AI 요약
Context
Discrete GPU 구조에서 CPU RAM과 GPU VRAM 사이의 물리적 분리로 인한 데이터 복제 비용 발생. 특히 모델 크기가 VRAM 용량을 초과할 경우 PCIe 버스의 낮은 대역폭이 전체 추론 속도를 결정하는 병목 지점으로 작용함.
Technical Solution
- NVLink-C2C 인터커넥트를 통한 Grace CPU와 Blackwell GPU의 단일 메모리 도메인 결합
- Cache-coherent 설계를 통한 호스트-디바이스 간 명시적 데이터 복제 단계 제거
- 128GB Unified Memory Pool 구축으로 CPU와 GPU가 동일한 물리 주소를 직접 참조하는 구조 설계
- FP4 Tensor Core 기반의 Quantization을 적용하여 대규모 모델의 온디바이스 탑재 가능 용량 확대
- Host-to-Device 전송 오버헤드를 제거하여 GPU 연산 코어의 유휴 시간 최소화
Impact
- PCIe 5.0 x16의 ~64 GB/s 대역폭 한계를 극복하고 GPU 온패키지 대역폭(수 TB/s) 활용 가능
- 16GB VRAM 환경에서 34GB 모델 추론 시 발생하는 ~1.9 tokens/s의 성능 저하 문제 해결
- Blackwell GPU의 6,144 CUDA 코어를 활용한 최대 1 Petaflop의 AI 연산 성능 제공
실천 포인트
- 대규모 모델 추론 설계 시 Compute-bound보다 Memory-bandwidth-bound 구간의 병목 여부 우선 검토 - 데이터 전송 오버헤드가 큰 시스템에서 Zero-copy 아키텍처 또는 Unified Memory 도입 가능성 검토 - 하드웨어 제약 사항(VRAM) 해결을 위한 Quantization과 메모리 통합 설계의 시너지 분석