피드로 돌아가기
How Nvidia learned to embrace the light in its quest for scale
The RegisterThe Register
Infrastructure

1,000개 이상의 GPU 통합, Nvidia의 광학 인터커넥트 전략

How Nvidia learned to embrace the light in its quest for scale

Tobias Mann2026년 4월 5일8advanced

Context

기존 Copper 기반 인터커넥트는 신호 감쇄 문제로 전송 거리가 수 피트로 제한됨. 대규모 AI 모델 학습을 위해 수천 개의 GPU를 단일 시스템으로 묶어야 하는 확장성 한계 직면. 단일 랙 수준을 넘어선 다중 랙 규모의 고속 네트워크 구조 필요.

Technical Solution

  • Copper의 저전력·저비용 장점과 Optics의 장거리 전송 능력을 결합한 하이브리드 연결 전략 채택
  • 스위치 ASIC 옆에 광학 엔진을 직접 통합하는 Co-packaged Optics(CPO) 도입으로 전력 소비 및 모듈 수 절감
  • 랙 내부 1계층은 Copper 인터커넥트를 유지하여 GPU 설계 변경 없이 효율성 확보
  • 랙 간 연결인 2계층 Spine 레이어에 Pluggable 모듈 및 Photonics 기술을 적용하여 컴퓨팅 도메인 8배 확장
  • Marvell과의 협업을 통한 NVLink Fusion 및 광학 I/O 기술 통합으로 커스텀 XPU 최적화 추진
  • Coherent, Lumentum 등 광학 레이저 전문 기업 투자를 통한 핵심 부품 공급망 수직 계열화

Impact

  • Grace Blackwell NVL72 시스템의 전력 소모 120kW 기록
  • Pluggable Optics 적용 시 추가 전력 소모 예상치 20,000W
  • Copper 인터커넥트 최대 대역폭 1.8 TB/s
  • 2028년까지 단일 시스템 내 1,000개 이상의 GPU 통합 목표

Key Takeaway

물리적 전송 매체의 한계(Copper vs Optics)를 극복하기 위해 계층별 최적 매체를 다르게 적용하는 계층적 상호연결 설계의 중요성.


초대규모 클러스터 설계 시 전력 효율과 신호 무결성을 고려하여 랙 내부는 Copper, 랙 간은 CPO/Optics로 구분하여 설계할 것

원문 읽기