피드로 돌아가기
Dev.toAI/ML
원문 읽기
Bootstrap Resampling을 통한 LLM Eval Metric의 통계적 신뢰 구간 확보
Bootstrap confidence intervals for your LLM eval metrics
AI 요약
Context
단일 포인트 추정치(Point Estimate) 기반의 Eval Score가 샘플링 오차를 반영하지 못하는 한계 발생. 500개 예제의 소규모 Eval Set에서 발생하는 1.5%p의 성능 차이를 실제 개선이 아닌 단순 노이즈로 오판할 위험 상존.
Technical Solution
- Bootstrap Resampling을 통한 Metric의 분포 분석 및 95% Confidence Interval 산출
- 단순 중복 추출(Resampling with replacement)을 통한 정규분포 가정이 없는 비모수적 통계 추론 적용
- 모델 간 비교 시 개별 구간 확인이 아닌 Paired Bootstrap 방식을 채택하여 두 모델의 차이값(Difference)에 대한 신뢰 구간 분석
- 차이값의 신뢰 구간 내 0 포함 여부를 기준으로 통계적 유의성(Statistical Significance) 판별 및 모델 배포 여부 결정
- 데이터 규모 N의 제곱근에 비례하는 구간 너비 감소 특성을 고려한 Eval Set 규모 최적화 설계
- 데이터 클러스터링으로 인한 유효 샘플 사이즈 감소 방지를 위해 사전 Dedup 프로세스 적용
실천 포인트
- Eval Metric 산출 시 NumPy/SciPy를 활용한 Bootstrap CI 계산 프로세스 추가 - 두 모델 비교 시 개별 CI 중첩 확인 대신 Paired Bootstrap으로 차이값의 유의성 검증 - 희귀 케이스(Rare failure modes) 분석 시 소수 샘플로 인한 과도한 신뢰 구간 확장을 경계하고 Stratified Sampling 검토 - 데이터 중복 제거(Dedup)를 통해 Bootstrap의 독립성 가정 충족 여부 확인
태그