피드로 돌아가기
AWS News Blog
Infrastructure

AWS가 NVIDIA RTX PRO 6000 Blackwell GPU로 EC2 G7e 인스턴스를 출시해 G6e 대비 추론 성능 2.3배, GPU 메모리 2배, inter-GPU 대역폭 4배 향상

Announcing Amazon EC2 G7e instances accelerated by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs

Channy Yun (윤석찬)2026년 1월 20일6intermediate

Context

Generative AI 추론 및 그래픽 워크로드는 대규모 모델 실행 시 단일 GPU 메모리 부족과 다중 GPU 간 통신 지연이 병목이었다. 기존 G6e 인스턴스는 70B 파라미터 모델을 FP8 정밀도로 단일 GPU에서 실행할 수 없었고, 다중 GPU 워크로드 시 inter-GPU 대역폭이 제한적이었다.

Technical Solution

  • GPU 메모리 증설: RTX PRO 6000 Blackwell 채용으로 GPU당 96GB 메모리 제공 (L40s 대비 2배), 최대 8 GPU 장착 시 768GB 총 메모리로 70B 파라미터 모델을 FP8에서 단일 노드 실행 가능
  • NVIDIA GPUDirect P2P 지원: PCIe 인터커넥트 상 GPU 간 직접 통신으로 peer-to-peer 레이턴시 최소화, inter-GPU 대역폭을 L40s 대비 4배 증가
  • NVIDIA GPUDirect RDMA + Elastic Fabric Adapter: 원격 GPU-to-GPU 통신 레이턴시 감소로 다중 노드 추론 워크로드 지원
  • 네트워킹 대역폭 4배 증설: G6e 대비 최대 1,600 Gbps 네트워크 제공으로 소규모 다중 노드 워크로드 지원
  • NVIDIA GPUDirectStorage + Amazon FSx for Lustre 통합: 최대 1.2 Tbps 스토리지 처리량으로 모델 로딩 시간 단축

Impact

  • G6e 대비 추론 성능 2.3배 향상
  • GPU 메모리 2배 증가 (L40s 48GB → RTX PRO 6000 96GB)
  • GPU 메모리 대역폭 1.85배 증가
  • inter-GPU 대역폭 L40s 대비 4배 증가
  • 네트워킹 대역폭 4배 증가 (G6e 대비)
  • 스토리지 처리량 1.2 Tbps (FSx for Lustre 이용 시)

Key Takeaway

대규모 모델 추론이 필요한 엔지니어팀은 단일 GPU 메모리 확장(수직 확장)과 다중 GPU 간 고대역폭 직접 통신(NVIDIA GPUDirect P2P/RDMA)을 결합하면 모델 분산 처리의 복잡도를 낮추면서 단일 노드에서 더 큰 모델을 실행할 수 있다.


LLM 추론 인프라를 구축하는 팀에서 RTX PRO 6000 Blackwell 기반 다중 GPU 인스턴스를 선택할 때, NVIDIA GPUDirect P2P와 GPUDirectStorage를 명시적으로 활성화하면 모델 병렬화 구현 시 inter-GPU 통신 지연을 최소화하고 모델 로딩 시간을 단축할 수 있다.

원문 읽기