피드로 돌아가기
Dev.toAI/ML
원문 읽기
Train-Test Gap 분석을 통한 Overfitting 제어 및 Generalization 최적화
53. Overfitting: When Your Model Is Too Good at Being Wrong
AI 요약
Context
모델이 Training Data의 Noise까지 학습하여 새로운 데이터에 대한 예측력이 저하되는 Overfitting 현상 발생. 단순 정확도 수치에 의존한 모델 평가가 실제 운영 환경에서의 성능 실패로 이어지는 구조적 한계 존재.
Technical Solution
- Training Accuracy와 Test Accuracy 간의 Gap을 측정하여 모델의 Generalization 성능을 정량적으로 진단
- Polynomial Degree 조절을 통한 모델 복잡도 제어로 Underfitting과 Overfitting 사이의 최적 지점 탐색
- Decision Tree의 max_depth 제한을 통해 모델의 과도한 세분화를 방지하고 추상화 수준 유지
- Cross-Validation 도입을 통한 특정 데이터 셋에 대한 의존성 제거 및 검증 데이터의 신뢰도 확보
- Bias-Variance Tradeoff 원리를 적용하여 모델의 단순함(Bias)과 민감도(Variance) 간의 균형 설계
Impact
- Decision Tree 모델 기준, max_depth를 무제한(None)에서 5로 최적화하여 Test Accuracy를 0.912에서 0.956으로 개선
- 불필요한 모델 복잡도를 제거하여 Training-Test Gap을 0.088에서 0.032 수준으로 축소
Key Takeaway
높은 Training Accuracy가 반드시 고성능 모델을 의미하지 않으며, 모델의 복잡도와 데이터 규모의 상관관계를 고려한 정규화 전략이 시스템 안정성의 핵심임.
실천 포인트
- Train/Test Accuracy Gap이 크게 발생할 경우 모델 복잡도 감소 및 Regularization 적용 검토 - 단일 Test Set 대신 K-Fold Cross-Validation을 통한 모델 성능의 일관성 검증 - Learning Curve를 시각화하여 Underfitting과 Overfitting의 변곡점 식별 - 모델의 Hyperparameter(예: depth, alpha) 튜닝 시 Validation Score가 피크를 치는 지점을 최적 모델로 선정