피드로 돌아가기
Hacker NewsHacker News
Infrastructure

x86 ACE 도입을 통한 Matrix Multiplication 가속 및 ML 워크로드 최적화

[x86] AI Compute Extensions (ACE) Specification

2026년 6월 18일1advanced

Context

기존 AVX 및 Scalar 코드만으로는 ML 워크로드의 핵심인 고밀도 Matrix Multiplication 연산 처리에 한계 존재. 데이터 포맷의 정밀도 조절과 대규모 행렬 연산을 효율적으로 처리할 전용 하드웨어 가속 구조 필요.

Technical Solution

  • Tile 및 Block Scale Register를 포함한 ACE Register State 도입으로 연산 데이터 유지 능력 강화
  • AVX Register 입력을 Tile Register 상태에서 처리하는 전용 Data Processing Operation 설계
  • ACE Register State와 AVX Register 간 데이터 전송을 최적화한 Data Move Operation 구현
  • AVX10 프레임워크 기반의 전용 Format Convert Operation 제공을 통한 데이터 정밀도 변환 효율 증대
  • AVX Vector의 범용성과 ACE Tile의 고밀도 연산 능력을 결합한 하이브리드 처리 구조 채택

ML 연산 최적화 시 범용 벡터 연산과 전용 행렬 가속기 간의 데이터 이동 비용을 최소화하는 Register 매핑 전략 검토

원문 읽기