12.5% 전문가 서브셋만으로 풀 모델 성능을 구현한 EMO MoE 아키텍처

EMO: Pretraining mixture of experts for emergent modularity

2026년 5월 8일9분advanced

AI 요약

Context

기존 MoE 모델은 전문가(Expert)가 의미론적 도메인이 아닌 전치사, 구두점 등 저수준 Lexical Pattern에 특화되는 경향을 보임. 이로 인해 특정 태스크 수행 시 전체 전문가를 모두 활성화해야 하며, 일부 전문가만 사용하는 서브셋 구성 시 심각한 성능 저하가 발생하는 구조적 한계 존재.

Technical Solution

Document Boundary를 약한 지도 학습 신호(Weak Supervisory Signal)로 활용하여 문서 내 모든 토큰이 동일한 전문가 풀을 공유하도록 제한
Router가 문서 내 전체 토큰의 선호도를 평균 내어 최적의 전문가 서브셋을 스스로 결정하는 메커니즘 도입
전문가 선택 범위를 문서 단위로 제약함으로써 데이터 기반의 Emergent Modularity를 유도하는 설계 적용
도메인 레이블링 등 인간의 개입 없이 사전 학습 과정에서 자동으로 의미론적 도메인별 전문가 그룹을 형성
1B-active, 14B-total 파라미터 구조에서 128개 전문가 중 8개를 활성화하는 Sparse MoE 최적화 수행

Impact

전체 전문가의 12.5% 수준인 소수 서브셋만으로도 Full-model에 근접한 성능 유지 가능
1T 토큰 학습을 통해 표면적 특징이 아닌 의미론적 도메인 기반의 전문가 클러스터링 달성

실천 포인트

- Sparse MoE 설계 시 전문가의 특화 방향이 저수준 문법 패턴에 매몰되지 않도록 제약 조건 검토 - 데이터의 구조적 경계(문서, 세션 등)를 활용하여 모델의 모듈성을 강제하는 Routing 전략 고려 - 추론 비용 절감을 위해 태스크별 전문가 서브셋 선택 및 컴포저블 아키텍처 적용 가능성 분석

태그

#Emergent Modularity #PreTraining #Routing Strategy #Mixture of Experts #Sparse MoE

원문 읽기