피드로 돌아가기
Dev.toAI/ML
원문 읽기
Matrix Multiplication 최적화를 통한 TPU의 대규모 ML 인퍼런스 비용 절감
TPUs vs. GPUs: What They Are, How They Differ, and Which Workloads Belong on Each
AI 요약
Context
범용 GPU의 SIMD 구조는 그래픽 렌더링을 위한 불필요한 하드웨어 자원을 포함하여 Matrix Multiplication 효율이 낮음. 특히 대규모 인퍼런스 환경에서 발생하는 과도한 메모리 I/O 병목과 전력 소모로 인한 인프라 확장 비용 증대 문제 발생.
Technical Solution
- Systolic Array 도입을 통한 Memory Round-trip 최소화 및 데이터 흐름 최적화
- Weight를 1회 로드 후 Grid 내에서 연산 결과를 직접 전달하는 데이터 패싱 구조 설계
- Matrix Multiplication 전용 하드웨어 가속을 위해 Texture Mapping 및 Branch Prediction 등 범용 기능 제거
- SparseCores 탑재를 통한 Embedding 기반 추천 시스템의 데이터플로우 가속화
- Inter-Chip Interconnect(ICI)를 활용한 TPU Pod 단위의 수만 개 칩 확장성 확보
- BF16 및 FP8 네이티브 지원을 통한 인퍼런스 처리량(Throughput) 극대화
Key Takeaway
워크로드의 특성이 Static Computation Graph 중심의 대규모 행렬 연산일 경우, 범용성(General-purpose)을 포기하고 특정 연산에 최적화된 ASIC(Application-Specific Integrated Circuit) 구조를 채택하여 전성비와 처리량을 극대화할 수 있음.
실천 포인트
- PyTorch 기반의 빠른 R&D 및 Dynamic Control Flow 필요 시 GPU 채택 - Google Cloud 환경에서 LLM 대규모 학습 및 고정된 그래프의 인퍼런스 운영 시 TPU 검토 - Embedding 비중이 높은 추천 시스템 설계 시 TPU의 SparseCores 활용 여부 확인 - 멀티 클라우드 및 온프레미스 배포 전략 필요 시 TPU 배제 및 GPU 표준화 추진