피드로 돌아가기
The RegisterInfrastructure
원문 읽기
5.12TB/s 대역폭의 PCIe 6.0 기반 Vendor Agnostic AI Fabric 구현
Astera speaks softly and carries a big switch
AI 요약
Context
GPU, NIC, Storage 연결을 위한 CPU 레인의 물리적 한계로 인한 PCIe Switch 도입 필요성 증대. 특히 MoE 구조의 LLM 추론 시 발생하는 잦은 Collective Communication이 네트워크 병목 지점으로 작용함.
Technical Solution
- 단일 ASIC 내 320개 PCIe 6.0 레인을 통합하여 5.12 TB/s의 양방향 대역폭 확보
- In-network Compute 기능을 스위치에 구현하여 GPU의 통신 대기 시간을 단축하는 구조 설계
- MoE 모델의 동적 그룹 변경 및 그룹 수 제한 문제를 해결하기 위해 최적화된 Hypercast Multicast 연산 도입
- NVLink 미지원 GPU 및 이기종 가속기 간 연결을 위한 Vendor Agnostic Interconnect 전략 채택
- Prefill과 Decode 작업을 분리하는 Disaggregated Inference 아키텍처를 위해 Ethernet보다 직접적인 PCIe 연결 방식 적용
Impact
- PCIe 6.0 기반 5.12 TB/s 양방향 대역폭 제공
- 단일 ASIC 내 최대 320개 PCIe 레인 집적
Key Takeaway
특정 벤더 종속적인 고성능 인터커넥트 대신 표준 PCIe 프로토콜의 확장성을 활용하여 이기종 하드웨어 간 유연한 Scale-up Fabric을 구축하는 전략적 접근.
실천 포인트
1. MoE 기반 모델 배포 시 Collective Communication 병목 여부를 분석하고 In-network Compute 도입 검토
2. 이기종 가속기 혼용 환경에서 NVLink/UALink 설계 비용 대비 PCIe
6.0의 호환성 및 성능 Trade-off 분석
3. 추론 파이프라인의 Prefill/Decode 단계 분리를 통한 Disaggregated Architecture 적용 가능성 확인