피드로 돌아가기
Dev.toAI/ML
원문 읽기
MiniMax M3 大模型注意力机制上所做的重大颠覆与优化
Sparse Attention과 Tile I/O 최적화로 1M 컨텍스트 계산량 20배 절감
AI 요약
Context
LLM 컨텍스트 윈도우 확대로 인한 KV Cache 증가와 HBM-SRAM 간 대역폭 병목 현상 발생. 연산 성능(Petaflops) 대비 데이터 전송 속도의 심각한 불균형으로 인한 Inference 성능 저하 문제 직면.
Technical Solution
- GQA 도입을 통한 Query-KV 공유 구조 설계로 HBM 전송 데이터 볼륨 최소화
- Full Attention에서 Sparse Attention으로 전환하여 Top-K 관련 토큰만 계산하는 방식 채택
- 100개 토큰 단위의 Tile 기반 패키징을 통한 연속적 메모리 읽기 구조 구현
- KV Tile을 최외곽 루프로 배치하여 단일 읽기 작업으로 다수 Query를 처리하는 I/O 효율 극대화
- Block 단위 스코어링 및 Top-K 블록 필터링을 통한 불필요한 연산 제거
실천 포인트
- 메모리 대역폭 병목 시 데이터 읽기 단위를 Tile/Block화 하여 Sequential I/O 유도 검토 - 전체 데이터 처리 대신 Top-K 기반의 Sparse 전략을 통한 연산량 및 데이터 전송량 동시 제어 - 하드웨어의 SRAM-HBM 전송 특성을 고려한 Outer Loop 설계 적용