피드로 돌아가기
GeekNewsInfrastructure
원문 읽기
에이전트 시대를 위한 두 개의 칩: Google의 8세대 TPU
전력 효율 2배 향상 및 학습·추론 전용 칩 분리로 구현한 수직 통합 AI 인프라
AI 요약
Context
범용 GPU 기반 인프라는 학습의 Compute-bound 특성과 추론의 Memory-bound 특성을 동시에 최적화하기 어려운 구조적 한계 존재. 특히 대규모 모델 운용 시 칩 벤더에 의존한 인프라 구성은 데이터센터 전체 관점의 비용 효율성 및 최적화 달성에 제약이 됨.
Technical Solution
- TPU 8t(학습용)와 TPU 8i(추론용)로 하드웨어를 분리하여 워크로드별 최적화된 자원 할당 설계
- 9,600개 칩과 2PB 공유 High Bandwidth Memory를 결합한 TPU 8t Superpod 구조를 통한 대규모 스케일 아웃 구현
- 실리콘-엔진-시스템-데이터센터를 아우르는 수직 통합 설계를 통한 인프라 전 계층 최적화
- 추론 전용 가속기 도입으로 낮은 지연 시간과 높은 에너지 효율을 동시에 달성하는 아키텍처 채택
- 학습용 칩의 높은 처리량(Throughput)을 활용하여 시간 민감도가 낮은 대규모 추론 작업에 재배치하는 유연한 자원 운용
실천 포인트
- 워크로드 분석을 통해 Compute-bound와 Memory-bound 구간을 명확히 구분하고 인프라 자원을 분리 배치할 것 - 클라우드 벤더의 범용 인스턴스보다 특정 워크로드에 최적화된 전용 가속기(LPU 등) 도입 가능성을 검토할 것 - 단순 모델 성능 개선보다 하드웨어-소프트웨어 스택 전체의 수직 통합 최적화 가능 지점을 식별할 것