피드로 돌아가기
The Synthetic Data Trap: When It Helps, When It Lies
Dev.toDev.to
AI/ML

Synthetic Data의 훈련-평가 분리를 통한 Model Evaluation 신뢰성 확보

The Synthetic Data Trap: When It Helps, When It Lies

The Forward Pass2026년 5월 20일5intermediate

Context

학습 데이터 부족 및 Edge Case 대응을 위해 Synthetic Data를 남용하는 추세임. 훈련 데이터 증강과 평가 데이터 생성에 동일한 생성 모델을 사용할 경우 Distribution Leakage가 발생하여 실제 성능이 왜곡되는 한계가 존재함.

Technical Solution

  • Training-Eval Firewall 설계를 통한 데이터 생성 경로의 완전한 분리
  • Low-resource Task 해결을 위한 학습 데이터 셋의 Synthetic Augmentation 적용
  • Adversarial Variant 생성을 통한 Training Set 내의 Edge Case 보강
  • Human-verified Ground Truth 기반의 Evaluation Set 구축으로 Circular Validation 제거
  • Nearest-neighbor Search를 통한 훈련-평가 데이터 간 세만틱 유사도 검증
  • Prompt Perturbation 기법을 통한 모델의 Invariance 및 Robustness 측정

- Eval Set 내 모든 샘플에 대해 인간 검증 여부를 확인하는 Provenance Test 수행 - 동일 생성 모델 사용 시 Train/Eval 분할 후에도 세만틱 중복이 있는지 Overlap Test 실시 - 휴먼 애노테이터를 통한 Eval Label 교차 검증 시 불일치율 15-20% 초과 여부 확인 - 질문 재구성 및 유의어 교체 등 Prompt Perturbation을 통한 성능 변동성 측정

원문 읽기