피드로 돌아가기
Chinese supercomputer using local processors heads TOP500 list
The RegisterThe Register
Infrastructure

Armv9 기반 자체 CPU로 2.198 Exaflop/s 달성한 LineShine 슈퍼컴퓨터

Chinese supercomputer using local processors heads TOP500 list

2026년 6월 24일2advanced

Context

외산 GPU 및 CPU 의존도를 낮추기 위한 중국의 기술 자립 전략 추진. Nvidia 및 AMD의 GPU 수출 제한으로 인한 하드웨어 공급망 리스크 해결 필요성 대두.

Technical Solution

  • Armv9 아키텍처 기반의 자체 설계 LX2 프로세서 도입을 통한 연산 효율 최적화
  • 칩당 304개 코어와 8개의 HBM 스택(4 TB/s 대역폭) 통합을 통한 메모리 병목 제거
  • 4개의 NUMA 도메인으로 구성된 128 GB DDR 메모리 배치를 통한 데이터 접근 경로 최적화
  • SDMA 엔진을 활용한 DDR과 HBM 간의 효율적인 데이터 전송 제어
  • SME 및 SVE 유닛 탑재를 통한 FP64/FP32/FP16/INT8 등 다양한 정밀도 연산 지원
  • dual-plane multi-rail fat-tree 토폴로지의 LingQi 네트워크 적용으로 노드당 1.6 Tb/s 대역폭 확보

Impact

  • CPU 기반 시스템 최초로 2.198 Exaflop/s의 지속적인 double-precision 성능 달성
  • 이론적 최대 성능(2.736 Exaflop/s) 대비 약 80%의 실측 성능 효율 기록
  • 20,480개 컴퓨팅 노드의 대규모 클러스터링 구현

Key Takeaway

특수 목적의 고성능 연산을 위해 범용 GPU 대신 Armv9 기반의 맞춤형 CPU 설계와 HBM-DDR 하이브리드 메모리 구조를 결합한 하드웨어-소프트웨어 통합 최적화 사례


1. 대규모 데이터 처리 시스템 설계 시 HBM과 DDR의 계층적 구조 및 전송 엔진(SDMA) 도입 검토

2. 확장성 확보를 위한 Fat-tree 토폴로지 기반의 고대역폭 네트워크 인터커넥트 설계 적용

3. 워크로드 특성에 맞는 정밀도(FP64 to INT8) 선택적 연산 유닛 활용 방안 분석

원문 읽기