피드로 돌아가기
Dev.toAI/ML
원문 읽기
MMD 기반 Eval Drift 탐지로 Golden Set 신뢰성 확보
Eval Set Drift: How to Know When Your Golden Set Went Stale
AI 요약
Context
제작 시점과 실제 운영 환경 간의 쿼리 분포 차이로 인한 Eval Drift 발생. Golden Set 기반의 Pass Rate가 98%를 유지하더라도 실제 User Satisfaction은 급락하는 지표 왜곡 현상 직면.
Technical Solution
- Gaussian 분포 가정이 필요 없는 Maximum Mean Discrepancy(MMD) 알고리즘을 통한 벡터 분포 비교 구조 설계
- Sentence-Transformers 기반의 Embedding 추출 및 RBF Kernel 적용으로 고차원 벡터 간의 거리 측정
- Median Heuristic을 활용한 Kernel Bandwidth 자동 최적화로 배치 간 일관성 확보
- Permutation Test 기반의 p-value 산출을 통해 통계적 유의성 검증 체계 구축
- Golden Set 자체를 무작위 분할하여 측정된 Noise Floor의 3~5배를 임계값으로 설정하는 보정 전략 채택
- 버전 관리된 Eval Set(월별)과 기준점(6개월 전)을 동시 측정하여 Regression과 Optimization을 구분하는 비교 분석 체계 도입
실천 포인트
- 운영 쿼리 200개를 샘플링하여 Golden Set과의 MMD² 값 측정 - Golden Set의 Random Split을 통한 Noise Floor 산출 및 임계값 설정 - 월 단위 Eval Set 버전 관리 및 최신/과거 셋 동시 벤치마킹 수행 - 단순 Pass Rate가 아닌 분포의 통계적 일치 여부를 모니터링 지표에 추가