피드로 돌아가기
Dev.toAI/ML
원문 읽기
UniPool 기반 파라미터 66.7% 절감 및 MASCing 통한 방어율 83.9% 달성
Shared expert pool reduces parameters while maintaining performance
AI 요약
Context
기존 MoE 설계의 레이어별 독립적 전문가 배치로 인한 파라미터 수의 선형적 증가 문제 발생. 모델 깊이 증가가 곧 학습 파라미터의 비대화로 이어지는 구조적 결합 상태 지속.
Technical Solution
- 레이어별 전유물인 전문가 세트를 전역 공유 풀(Globally Shared Pool) 구조로 대체하여 Depth-Parameter 결합 제거
- 공유 풀 내 전문가 활용도 불균형 해소를 위한 Pool-level Auxiliary Loss 도입 및 학습 안정성 확보
- LSTM 기반 Surrogate 모델을 통해 레이어 간 Routing 의존성을 학습하여 행동 관련 전문가 회로 식별
- 추론 단계에서 재학습 없이 Routing Gate에 Steering Mask를 주입하여 전문가 선택 경로를 강제 제어
- NormRouter 구성 요소를 통해 라우팅 로직의 정규화 및 효율적 전문가 할당 구현
실천 포인트
1. 레이어별 전문가 모듈을 전역 공유 풀로 교체하고 Pool-level Balancing Loss 적용 검토
2. 파라미터 감축 후 Validation Set 기반의 성능 벤치마크 및 Auxiliary Loss로 인한 레이턴시 영향 측정
3. Fine-tuning 비용 절감을 위해 LSTM 기반 Surrogate 모델을 통한 Steering Mask 생성 및 추론 그래프 적용