피드로 돌아가기
Dev.toAI/ML
원문 읽기
Synthetic Data의 훈련-평가 분리를 통한 Model Evaluation 신뢰성 확보
The Synthetic Data Trap: When It Helps, When It Lies
AI 요약
Context
학습 데이터 부족 및 Edge Case 대응을 위해 Synthetic Data를 남용하는 추세임. 훈련 데이터 증강과 평가 데이터 생성에 동일한 생성 모델을 사용할 경우 Distribution Leakage가 발생하여 실제 성능이 왜곡되는 한계가 존재함.
Technical Solution
- Training-Eval Firewall 설계를 통한 데이터 생성 경로의 완전한 분리
- Low-resource Task 해결을 위한 학습 데이터 셋의 Synthetic Augmentation 적용
- Adversarial Variant 생성을 통한 Training Set 내의 Edge Case 보강
- Human-verified Ground Truth 기반의 Evaluation Set 구축으로 Circular Validation 제거
- Nearest-neighbor Search를 통한 훈련-평가 데이터 간 세만틱 유사도 검증
- Prompt Perturbation 기법을 통한 모델의 Invariance 및 Robustness 측정
실천 포인트
- Eval Set 내 모든 샘플에 대해 인간 검증 여부를 확인하는 Provenance Test 수행 - 동일 생성 모델 사용 시 Train/Eval 분할 후에도 세만틱 중복이 있는지 Overlap Test 실시 - 휴먼 애노테이터를 통한 Eval Label 교차 검증 시 불일치율 15-20% 초과 여부 확인 - 질문 재구성 및 유의어 교체 등 Prompt Perturbation을 통한 성능 변동성 측정