TPU 8t/8i 도입을 통한 훈련 성능 3배 향상 및 추론 비용 80% 절감

Google New TPU Generation is Specifically Designed for Agents and SOTA Model Training

Sergio De Simone2026년 5월 6일3분advanced

AI 요약

Context

AI Agent의 멀티스텝 추론 및 연속적 액션 루프 처리를 위한 특화 하드웨어 필요성 증대. 기존 범용 TPU 구조로는 대규모 모델 훈련 속도와 실시간 추론 레이턴시를 동시에 최적화하는 데 한계 노출.

Technical Solution

워크로드 특성에 따른 TPU 8t(훈련 특화)와 TPU 8i(추론 특화)의 하드웨어 분리 설계
TPU 8t의 Compute Density 및 메모리 대역폭 확장을 통한 모델 훈련 기간의 획기적 단축
TPU 8i의 Global Operation 오프로딩 및 메모리 대역폭 확장을 통한 레이턴시 민감 워크로드 최적화
Boardfly 아키텍처 도입을 통한 Network Diameter 50% 이상 감소 및 시스템 응집력 강화
MoE 모델 최적화를 위한 Interconnect(ICI) 대역폭을 19.2 Tb/s까지 확장한 전송 구조 설계
하드웨어, 네트워킹, 소프트웨어를 통합 설계하는 Co-design 철학 기반의 전력 효율 극대화

Impact

이전 세대 대비 Compute Performance 약 3배 향상
추론 성능 대비 비용(Performance per Dollar) 80% 개선
단일 Superpod 기준 9,600개 칩 확장 및 2PB 공유 HBM 확보
최대 121 ExaFlops의 연산 성능 제공 및 최대 100만 개 칩의 선형적 스케일아웃 구현
스토리지 속도 10배 향상으로 체크포인트 리스타트 등 다운타임 최소화

Key Takeaway

워크로드의 성격(Compute-intensive vs Latency-sensitive)에 따라 하드웨어 리소스를 분리하는 Specialized Silicon 전략의 유효성 확인. 칩 단위를 넘어 데이터센터 전체를 하나의 컴퓨터로 보는 Whole-datacenter Context 설계가 성능 최적화의 핵심임.

실천 포인트

- 워크로드별 리소스 병목 지점이 Compute인지 Memory Bandwidth인지 구분하여 인프라 배치 - 분산 시스템 설계 시 Network Diameter를 줄여 통신 레이턴시를 최소화하는 토폴로지 검토 - 하드웨어 제약 사항을 소프트웨어 아키텍처에 반영하는 Co-design 관점의 최적화 수행

태그

#Co-design #AI Agent #MoE #Interconnect #TPU

원문 읽기