Hugging Face Blog12.5% 전문가 서브셋만으로 풀 모델 성능을 구현한 EMO MoE 아키텍처EMO: Pretraining mixture of experts for emergent modularityAI/MLadvanced22 분 소요5일 전