MMD 기반 Eval Drift 탐지로 Golden Set 신뢰성 확보

Eval Set Drift: How to Know When Your Golden Set Went Stale

Gabriel Anhaia2026년 5월 24일11분intermediate

AI 요약

Context

제작 시점과 실제 운영 환경 간의 쿼리 분포 차이로 인한 Eval Drift 발생. Golden Set 기반의 Pass Rate가 98%를 유지하더라도 실제 User Satisfaction은 급락하는 지표 왜곡 현상 직면.

Technical Solution

Gaussian 분포 가정이 필요 없는 Maximum Mean Discrepancy(MMD) 알고리즘을 통한 벡터 분포 비교 구조 설계
Sentence-Transformers 기반의 Embedding 추출 및 RBF Kernel 적용으로 고차원 벡터 간의 거리 측정
Median Heuristic을 활용한 Kernel Bandwidth 자동 최적화로 배치 간 일관성 확보
Permutation Test 기반의 p-value 산출을 통해 통계적 유의성 검증 체계 구축
Golden Set 자체를 무작위 분할하여 측정된 Noise Floor의 3~5배를 임계값으로 설정하는 보정 전략 채택
버전 관리된 Eval Set(월별)과 기준점(6개월 전)을 동시 측정하여 Regression과 Optimization을 구분하는 비교 분석 체계 도입

실천 포인트

- 운영 쿼리 200개를 샘플링하여 Golden Set과의 MMD² 값 측정 - Golden Set의 Random Split을 통한 Noise Floor 산출 및 임계값 설정 - 월 단위 Eval Set 버전 관리 및 최신/과거 셋 동시 벤치마킹 수행 - 단순 Pass Rate가 아닌 분포의 통계적 일치 여부를 모니터링 지표에 추가

태그

#Distribution Shift #Eval Drift #Golden Set #Embedding #MMD

원문 읽기