MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델

Commodity GPU로 1T 모델 1000 TPS 달성한 모델-시스템 Codesign

neo2026년 6월 9일16분advanced

AI 요약

Context

1T 규모의 대형 모델은 막대한 메모리 점유와 대역폭 압박으로 인해 추론 속도 저하가 필연적임. 기존의 초고속 추론은 Cerebras 등 전용 하드웨어에 의존하여 범용 GPU 환경에서의 성능 한계가 명확한 상황임.

MoE 아키텍처 내 양자화 내성이 높은 Experts에만 선택적으로 FP4(MXFP4)를 적용하여 메모리 대역폭 병목 해소
DFlash Speculative Decoding 도입을 통한 autoregressive drafting의 직렬 제약 제거 및 블록 단위 병렬 예측 구현
Muon 2차 최적화기와 self-distillation을 활용한 draft 모델의 연산 오버헤드를 이론적 최소치로 압축
TileRT의 Persistent Engine Kernel 설계를 통해 연산자 간 Execution Gaps를 제거하고 데이터 이동과 연산의 극한 중첩 달성
Warp Specialization 기법으로 GPU 내부의 통신, 데이터 이동, 텐서 연산을 물리적으로 분해하여 이기종 실행 시스템으로 전환
모델의 SWA 설계와 DFlash의 prefix 의존 제거를 통한 예측당 연산 복잡도의 상수 시간(O(1)) 최적화

실천 포인트

1. LLM 추론 병목 지점이 연산량인지 메모리 대역폭인지 분석하여 맞춤형 양자화 전략 수립

2. Speculative Decoding 도입 시 draft 모델의 품질과 연산 비용 간의 Trade-off를 정밀하게 튜닝

3. GPU 커널 최적화 시 operator boundary로 인한 오버헤드를 줄이기 위한 파이프라인 중첩 구조 검토

태그