피드로 돌아가기
Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains
Hugging Face BlogHugging Face Blog
AI/ML

12B MoE 구조로 2배 빠른 추론을 구현한 Mellum2 공개

Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

2026년 6월 1일3intermediate

Context

복잡한 AI 시스템 내 routing, RAG, sub-agent 등 다수의 모델 호출로 인한 Latency 증가 발생. 모든 태스크에 거대 모델을 사용하는 Monolithic 구조의 비효율성을 해결하기 위해 경량화된 Focal Model 필요성 대두.

Technical Solution

  • Total 12B 파라미터 중 토큰당 2.5B만 활성화하는 Mixture-of-Experts(MoE) 아키텍처 채택
  • Text와 Code 모달리티에 집중한 특화 설계를 통한 모델 컴팩트화 및 추론 효율성 극대화
  • 고빈도 단순 작업 처리를 위해 Routing, Orchestration, Context Compression에 최적화된 구조 설계
  • Apache 2.0 라이선스 기반의 Open Weights 제공으로 Private Deployment 및 자체 호스팅 가능 구조 확보
  • 대형 모델을 대체하는 것이 아닌, 전체 스택의 속도와 비용을 최적화하는 컴포넌트 기반 설계 전략 적용

1. LLM 기반 워크플로우 중 Latency 민감도가 높은 Routing/Validation 단계 식별

2. 전체 파라미터 대비 활성화 파라미터 비율이 낮은 MoE 모델 도입을 통한 Serving Cost 절감 검토

3. 데이터 보안이 중요한 Proprietary Code 환경을 위한 Self-hosted 모델 배포 전략 수립

원문 읽기