Data Leakage 해결을 통한 51.6% → 51.2%의 정직한 Baseline 회복

Eval Integrity: How We Found the Leakage and Why Our Baseline Lied

grahammccain2026년 4월 14일3분advanced

AI 요약

Context

Chart Library의 shape-embedding 방향 정확도 측정 중 Training set과 Validation set 간의 데이터 오염 발생. 단순 날짜 기반 분할로 인해 동일 심볼의 유사 벡터가 양측에 모두 포함되어 모델이 패턴이 아닌 단순 복제 데이터를 탐색하는 구조적 한계 노출.

Technical Solution

Date-based split에서 Symbol-disjoint split으로 전환하여 특정 Ticker가 단 하나의 split에만 포함되도록 강제하는 구조 설계
Training label 생성 시 Future data가 유입되는 현상을 막기 위해 최대 Forward horizon과 동일한 10거래일의 Purge-and-embargo window 도입
단순 평균 성능 측정의 한계를 극복하기 위해 Regime, Sector, Liquidity 등 컨텍스트 기반의 Conditional Distribution API로 아키텍처 확장
모든 측정 지표에 Sample size와 Confidence intervals를 병기하여 통계적 유의성 확보
외부 벤더 평가 시 Split 구성, Embargo window, Symbol overlap 처리 방식을 검증하는 감사 프로세스 확립

실천 포인트

- 시계열 데이터 분할 시 Symbol-disjoint split 적용 여부 검토 - Label 생성 윈도우와 Validation 시작점 사이에 Purge-embargo 구간 설정 - 단순 평균 성능보다 특정 조건(Regime, Sector 등) 하의 Conditional Distribution 분석 수행 - 성능 지표 보고 시 신뢰 구간(Confidence Interval)과 샘플 크기 명시

태그

#Conditional Distribution #Baseline Audit #Data Leakage #Symbol-disjoint Split #Purge-and-embargo

원문 읽기