피드로 돌아가기
MiniMax M3 Explained: The Sparse Attention Breakthrough
Dev.toDev.to
AI/ML

MSA 도입으로 1M 컨텍스트 연산 비용 28.4배 절감 및 코딩 성능 확보

MiniMax M3 Explained: The Sparse Attention Breakthrough

Hamza2026년 6월 24일4advanced

Context

표준 Softmax Attention의 $O(n^2)$ 복잡도로 인한 1M 토큰 이상의 Long-context 추론 시 발생하는 계산 비용 및 하드웨어 제약 해결 필요. 기존 Sparse Attention 및 KV-cache 압축 방식이 유발하는 정밀도 저하와 트레이드오프 극복이 핵심 과제.

Technical Solution

  • Index Branch를 통한 KV cache의 128토큰 블록 단위 분할 및 GQA 그룹별 상위 16개 최적 블록 선택
  • Main Branch에서 선택된 약 2,048개 KV 토큰에 대해서만 Exact Attention을 수행하는 Two-Stage Block Selection 구조 설계
  • 컨텍스트 길이에 관계없이 연산량을 일정하게 유지하는 Sub-quadratic Scaling 구현
  • Exp-free Top-k selection 및 KV-outer Sparse Attention을 포함한 Custom Kernel 설계를 통한 GPU 하드웨어 최적화
  • 데이터 압축 기반의 MLA 방식과 달리 Uncompressed KV data를 직접 참조하여 Long-context Retrieval 정확도 유지
  • Contiguous Memory Access 설계를 통한 블록 단위 단일 읽기 최적화로 추론 속도 향상

- Long-context 처리 시 전체 Attention 대신 Top-k 블록 선택 기반의 Sparse 구조 검토 - 메모리 효율을 위한 Latent Space 압축(MLA)과 정확도를 위한 Raw KV 참조(MSA) 간의 트레이드오프 분석 - 하드웨어 가속을 위해 Custom Kernel 설계 및 Memory Access 패턴 최적화 적용 여부 확인

원문 읽기