TPU 8t/8i 분리 설계로 훈련 속도 2.8배 및 추론 효율 80% 향상

Forget one chip to rule them all: With TPU 8, Google has an AI arms race to win

Tobias Mann2026년 4월 22일6분advanced

AI 요약

Context

범용 AI 가속기 구조에서 발생하는 Training과 Inference 간의 서로 다른 병목 지점으로 인한 자원 낭비 발생. 특히 LLM 규모 확대에 따른 대규모 클러스터의 Scaling Loss와 MoE 아키텍처의 예측 불가능한 통신 지연 해결이 시급한 상황.

Workload 특성에 맞춘 TPU 8t(Training)와 TPU 8i(Inference)의 Dual-track 하드웨어 분리 설계
TPU 8t의 Optical-circuit switches 도입을 통한 단일 Pod 내 최대 9,600개 가속기 연결 및 Virgo Network 기반의 대규모 Compute Domain 확장
TPU 8i의 SRAM 캐시 확대와 Collective Acceleration Engine(CAE) 탑재로 MoE 모델의 통신 지연 및 동기화 스톨 최소화
Boardfly 토폴로지를 통한 칩 간 최대 홉 수의 16에서 7로 단축으로 추론 레이턴시 개선
x86 프로세서를 대체하는 Arm 기반 Axion CPU 도입으로 TPU Host의 전력 및 성능 최적화
Managed Lustre 스토리지 시스템 구축을 통한 가속기 메모리로의 직접적인 고속 데이터 전송 경로 확보

단일 칩의 절대 성능보다 대규모 클러스터의 Network Topology와 상호 연결 효율성이 전체 시스템 성능을 결정하는 Scaling Law의 핵심임을 입증한 사례

실천 포인트

1. 워크로드의 병목이 Compute-bound인지 Memory-bound인지 분석하여 하드웨어 자원 할당 차별화

2. 대규모 분산 처리 시스템 설계 시 Packet Switch의 한계를 극복할 수 있는 Topology(예: Dragonfly, All-to-all) 검토

3. 분산 학습 환경에서 Checkpoint Restart 등 오버헤드를 줄이기 위한 RAS(Reliability, Availability, Serviceability) 지표 관리

태그