피드로 돌아가기
Dev.toAI/ML
원문 읽기
MoE Soft Routing의 Calibration Drift 해결을 통한 AI 신뢰도 확보
Why Your AI Model's Confidence Score Is Probably Lying (And What To Do About It)
AI 요약
Context
Mixture-of-Experts(MoE) 아키텍처의 Soft Routing 구조에서 발생하는 Distribution Shift 문제 분석. 개별 Expert가 잘 Calibration 되었더라도, 입력 데이터 분포 변화로 인해 최종 합산 점수의 확률적 신뢰도가 무너지는 현상 발생.
Technical Solution
- Soft Routing의 가중치 합산 방식인 f(x) = Σ r_i(x) * f_i(x) 구조로 인한 신뢰도 붕괴 지점 식별
- 서로 다른 Expert 조합이 동일한 최종 점수를 생성하는 Configuration 중첩 문제 분석
- Hard Routing 도입을 통해 (Expert, Confidence) 쌍을 단순화하여 Distribution Shift에 대한 강건성 확보
- 학습 단계에서 High-loss 샘플에 가중치를 두는 Adversarial Reweighting 적용으로 취약한 Configuration 보완
- 배포 후 빠른 대응을 위해 Logits를 조정하는 Temperature Scaling 기반의 Post-hoc Calibration 구현
- KS-test(Kolmogorov-Smirnov test)를 활용한 Feature 단위의 Distribution Shift 실시간 모니터링 체계 구축
실천 포인트
- MoE 모델 도입 시 Soft Routing의 Confidence Score를 맹신하지 말고 ECE(Expected Calibration Error) 지표를 상시 모니터링할 것 - 데이터 분포 변화가 예상되는 환경이라면 Expressiveness를 일부 포기하더라도 Hard Routing 도입을 검토할 것 - 재학습이 어려운 긴급 상황에서는 Temperature Scaling을 통해 전체적인 Calibration 수준을 빠르게 보정할 것 - 입력 데이터의 통계적 특성 변화를 감지하기 위해 Train/Serving 데이터셋 간의 KS-test 검증 프로세스를 파이프라인에 추가할 것