피드로 돌아가기
Meta EngineeringInfrastructure
원문 읽기
Building Prometheus: How Backend Aggregation Enables Gigawatt-Scale AI Clusters
Meta가 Backend Aggregation(BAG)을 통해 수만 개의 GPU를 여러 데이터센터에 연결하여 1기가와트 규모의 Prometheus AI 클러스터 구축
AI 요약
Context
수만 개의 GPU를 여러 데이터센터와 지역에 걸쳐 연결하면서 막대한 대역폭 요구를 충족하고 단일 실패 지점을 제거해야 했다. L2 패브릭 간의 원활한 상호 연결과 지역 간 네트워크의 안정적인 통합이 필수 과제였다.
Technical Solution
- Backend Aggregation(BAG) 도입: 중앙화된 Ethernet 기반 슈퍼 스파인 네트워크 계층으로 지역 간 L2 패브릭 스파인 레이어 상호 연결
- 이중 패브릭 기술 통합: Disaggregated Schedule Fabric(DSF)와 Non-Scheduled Fabric(NSF) 두 가지 L2 네트워크 기술을 BAG 레이어에 연결
- 분산 BAG 레이어 배치: 지역별로 거리, 버퍼, 레이턴시 제약을 준수하며 L2 패브릭 부분집합을 담당하는 BAG 레이어를 전략적 배치
- Inter-BAG 연결 토폴로지: Planar 토폴로지(1:1 직접 연결)와 Spread 토폴로지(다중 스위치/플레인에 걸친 링크 분산) 중 선택 적용으로 경로 다양성과 복원력 향상
- Jericho3 ASIC 라인카드 사용: 모듈식 섀시에 432x800G 포트 제공 라인카드 장착으로 고용량 확장 가능 상호 연결
- eBGP와 UCMP 라우팅: 링크 대역폭 속성을 활용한 eBGP 라우팅과 Unequal Cost Multipath로 부하 분산 및 장애 처리
- MACsec 보안: BAG 간 연결에 MACsec 적용으로 네트워크 보안 요구사항 충족
- 차등 오버서브스크립션 관리: DSF에서 약 4.5:1, NSF에서 4.98:1의 전형적 L2-to-BAG 오버서브스크립션 비율 설정
- 장애 도메인 분석 및 완화: BAG, 데이터홀, 전력 분배 수준의 상세한 포트 스트라이핑, IP 주소 지정, 장애 모드 분석 수행
Impact
Inter-BAG 용량이 지역 쌍당 16~48 Pbps(페타비트)에 도달. Prometheus 클러스터가 1기가와트 용량으로 구성 예정. 수만 개의 GPU가 단일 AI 클러스터로 상호 연결.
Key Takeaway
분산 시스템에서 지역 간 연결 시 수평적 거리에 따라 버퍼 전략(NSF의 Shallow Buffer vs BAG의 Deep Buffer)을 차별화하고, 장애 격리를 위해 직접 연결과 분산 연결 토폴로지를 의도적으로 선택하는 것이 대규모 시스템 복원력의 핵심이다.
실천 포인트
여러 지역에 걸쳐 고성능 분산 클러스터를 구축하는 조직에서 Spread 토폴로지를 기본으로 채택하여 링크 다양성을 확보하고, L2 엣지에서 BAG 계층으로의 오버서브스크립션을 4.5:1 수준으로 설정한 뒤 지역 간 요구사항에 따라 조정하면 단일 경로 장애로 인한 전체 클러스터 영향을 최소화할 수 있다.