피드로 돌아가기
원문 읽기
AWS News Blog
InfrastructureAWS가 NVIDIA RTX PRO 6000 Blackwell GPU로 EC2 G7e 인스턴스를 출시해 G6e 대비 추론 성능 2.3배, GPU 메모리 2배, inter-GPU 대역폭 4배 향상
Announcing Amazon EC2 G7e instances accelerated by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs
AI 요약
Context
Generative AI 추론 및 그래픽 워크로드는 대규모 모델 실행 시 단일 GPU 메모리 부족과 다중 GPU 간 통신 지연이 병목이었다. 기존 G6e 인스턴스는 70B 파라미터 모델을 FP8 정밀도로 단일 GPU에서 실행할 수 없었고, 다중 GPU 워크로드 시 inter-GPU 대역폭이 제한적이었다.
Technical Solution
- GPU 메모리 증설: RTX PRO 6000 Blackwell 채용으로 GPU당 96GB 메모리 제공 (L40s 대비 2배), 최대 8 GPU 장착 시 768GB 총 메모리로 70B 파라미터 모델을 FP8에서 단일 노드 실행 가능
- NVIDIA GPUDirect P2P 지원: PCIe 인터커넥트 상 GPU 간 직접 통신으로 peer-to-peer 레이턴시 최소화, inter-GPU 대역폭을 L40s 대비 4배 증가
- NVIDIA GPUDirect RDMA + Elastic Fabric Adapter: 원격 GPU-to-GPU 통신 레이턴시 감소로 다중 노드 추론 워크로드 지원
- 네트워킹 대역폭 4배 증설: G6e 대비 최대 1,600 Gbps 네트워크 제공으로 소규모 다중 노드 워크로드 지원
- NVIDIA GPUDirectStorage + Amazon FSx for Lustre 통합: 최대 1.2 Tbps 스토리지 처리량으로 모델 로딩 시간 단축
Impact
- G6e 대비 추론 성능 2.3배 향상
- GPU 메모리 2배 증가 (L40s 48GB → RTX PRO 6000 96GB)
- GPU 메모리 대역폭 1.85배 증가
- inter-GPU 대역폭 L40s 대비 4배 증가
- 네트워킹 대역폭 4배 증가 (G6e 대비)
- 스토리지 처리량 1.2 Tbps (FSx for Lustre 이용 시)
Key Takeaway
대규모 모델 추론이 필요한 엔지니어팀은 단일 GPU 메모리 확장(수직 확장)과 다중 GPU 간 고대역폭 직접 통신(NVIDIA GPUDirect P2P/RDMA)을 결합하면 모델 분산 처리의 복잡도를 낮추면서 단일 노드에서 더 큰 모델을 실행할 수 있다.
실천 포인트
LLM 추론 인프라를 구축하는 팀에서 RTX PRO 6000 Blackwell 기반 다중 GPU 인스턴스를 선택할 때, NVIDIA GPUDirect P2P와 GPUDirectStorage를 명시적으로 활성화하면 모델 병렬화 구현 시 inter-GPU 통신 지연을 최소화하고 모델 로딩 시간을 단축할 수 있다.