피드로 돌아가기
MiniMax-M3 데뷔, 주요 벤치마크 성능에서 GPT-5.5와 Gemini 3.1 Pro를 능가하며 비용은 단 5-10% 수준
GeekNewsGeekNews
AI/ML

MiniMax-M3 데뷔, 주요 벤치마크 성능에서 GPT-5.5와 Gemini 3.1 Pro를 능가하며 비용은 단 5-10% 수준

MSA 아키텍처 기반 연산량 1/20 절감 및 GPT-5.5 능가하는 M3 출시

recast78382026년 6월 2일2advanced

Context

기존 Transformer 구조의 제곱비례 연산 비용 증가로 인한 대규모 컨텍스트 처리의 하드웨어 병목 현상 발생. 고비용의 API 구독 모델과 데이터 프라이버시 문제로 인한 기업 내 로컬 LLM 도입 수요 증가.

Technical Solution

  • MiniMax Sparse Attention(MSA) 아키텍처 도입을 통한 연산 복잡도 개선
  • 데이터를 고정밀 블록 단위로 분할하여 처리하는 블록 기반 분할 전략 채택
  • 전체 데이터가 아닌 필요한 쿼리만 동적으로 매칭하는 Dynamic Matching 로직 구현
  • Open Weights 제공을 통한 기업 내부 서버 기반 Local Deployment 환경 지원
  • 독립적 검증 루프 기반의 자율 수정 프로세스를 갖춘 코드 에이전트 구조 설계

Impact

  • 연산 요구량: 기존 Transformer 대비 1/20 수준으로 감소
  • 디코딩 속도: 기존 대비 15배 향상
  • 추론 비용: 미국 상용 모델 대비 5~20% 수준의 비용 달성 (100만 입력 토큰당 0.3달러)
  • 성능 지표: SWE-Bench Pro 59.0%, BrowseComp 83.5% 기록

1. 대규모 컨텍스트 처리 시 Sparse Attention 기법의 도입 가능성 검토

2. 데이터 프라이버시가 중요한 도메인에서 Open Weights 모델의 Local 최적화 전략 수립

3. 단순 추론을 넘어 검증-수정 루프를 포함한 Agentic Workflow 설계 적용

원문 읽기