Synthetic Data의 훈련-평가 분리를 통한 Model Evaluation 신뢰성 확보

The Synthetic Data Trap: When It Helps, When It Lies

The Forward Pass2026년 5월 20일5분intermediate

AI 요약

Context

학습 데이터 부족 및 Edge Case 대응을 위해 Synthetic Data를 남용하는 추세임. 훈련 데이터 증강과 평가 데이터 생성에 동일한 생성 모델을 사용할 경우 Distribution Leakage가 발생하여 실제 성능이 왜곡되는 한계가 존재함.

Technical Solution

Training-Eval Firewall 설계를 통한 데이터 생성 경로의 완전한 분리
Low-resource Task 해결을 위한 학습 데이터 셋의 Synthetic Augmentation 적용
Adversarial Variant 생성을 통한 Training Set 내의 Edge Case 보강
Human-verified Ground Truth 기반의 Evaluation Set 구축으로 Circular Validation 제거
Nearest-neighbor Search를 통한 훈련-평가 데이터 간 세만틱 유사도 검증
Prompt Perturbation 기법을 통한 모델의 Invariance 및 Robustness 측정

실천 포인트

- Eval Set 내 모든 샘플에 대해 인간 검증 여부를 확인하는 Provenance Test 수행 - 동일 생성 모델 사용 시 Train/Eval 분할 후에도 세만틱 중복이 있는지 Overlap Test 실시 - 휴먼 애노테이터를 통한 Eval Label 교차 검증 시 불일치율 15-20% 초과 여부 확인 - 질문 재구성 및 유의어 교체 등 Prompt Perturbation을 통한 성능 변동성 측정

태그

#Distribution Leakage #Synthetic Data #Data-Augmentation #Model Evaluation #Circular Validation

원문 읽기