MiniMax M3 大模型注意力机制上所做的重大颠覆与优化
Sparse Attention과 Tile I/O 최적화로 1M 컨텍스트 계산량 20배 절감
Sparse Attention과 Tile I/O 최적화로 1M 컨텍스트 계산량 20배 절감
MSA 아키텍처 기반 연산량 1/20 절감 및 GPT-5.5 능가하는 M3 출시
SubQ Model: Can Subquadratic Make Long-Context AI More Efficient?
Flux Attention halves inference cost on long contexts
1.6T 모델의 롱컨텍스트 비용을 KV 캐시 10% 수준으로 절감한 아키텍처 혁신
DeepSeek V4: Million-Token Context That Actually Works