피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
12.5% 전문가 서브셋만으로 풀 모델 성능을 구현한 EMO MoE 아키텍처
EMO: Pretraining mixture of experts for emergent modularity
AI 요약
Context
기존 MoE 모델은 전문가(Expert)가 의미론적 도메인이 아닌 전치사, 구두점 등 저수준 Lexical Pattern에 특화되는 경향을 보임. 이로 인해 특정 태스크 수행 시 전체 전문가를 모두 활성화해야 하며, 일부 전문가만 사용하는 서브셋 구성 시 심각한 성능 저하가 발생하는 구조적 한계 존재.
Technical Solution
- Document Boundary를 약한 지도 학습 신호(Weak Supervisory Signal)로 활용하여 문서 내 모든 토큰이 동일한 전문가 풀을 공유하도록 제한
- Router가 문서 내 전체 토큰의 선호도를 평균 내어 최적의 전문가 서브셋을 스스로 결정하는 메커니즘 도입
- 전문가 선택 범위를 문서 단위로 제약함으로써 데이터 기반의 Emergent Modularity를 유도하는 설계 적용
- 도메인 레이블링 등 인간의 개입 없이 사전 학습 과정에서 자동으로 의미론적 도메인별 전문가 그룹을 형성
- 1B-active, 14B-total 파라미터 구조에서 128개 전문가 중 8개를 활성화하는 Sparse MoE 최적화 수행
Impact
- 전체 전문가의 12.5% 수준인 소수 서브셋만으로도 Full-model에 근접한 성능 유지 가능
- 1T 토큰 학습을 통해 표면적 특징이 아닌 의미론적 도메인 기반의 전문가 클러스터링 달성
실천 포인트
- Sparse MoE 설계 시 전문가의 특화 방향이 저수준 문법 패턴에 매몰되지 않도록 제약 조건 검토 - 데이터의 구조적 경계(문서, 세션 등)를 활용하여 모델의 모듈성을 강제하는 Routing 전략 고려 - 추론 비용 절감을 위해 태스크별 전문가 서브셋 선택 및 컴포저블 아키텍처 적용 가능성 분석