UniPool 기반 파라미터 66.7% 절감 및 MASCing 통한 방어율 83.9% 달성

Shared expert pool reduces parameters while maintaining performance

Papers Mache2026년 5월 15일3분advanced

AI 요약

Context

기존 MoE 설계의 레이어별 독립적 전문가 배치로 인한 파라미터 수의 선형적 증가 문제 발생. 모델 깊이 증가가 곧 학습 파라미터의 비대화로 이어지는 구조적 결합 상태 지속.

실천 포인트

1. 레이어별 전문가 모듈을 전역 공유 풀로 교체하고 Pool-level Balancing Loss 적용 검토

2. 파라미터 감축 후 Validation Set 기반의 성능 벤치마크 및 Auxiliary Loss로 인한 레이턴시 영향 측정

3. Fine-tuning 비용 절감을 위해 LSTM 기반 Surrogate 모델을 통한 Steering Mask 생성 및 추론 그래프 적용

태그