피드로 돌아가기
Better Data Beats Better Algorithms: Before Changing the Model, Change the Data
Dev.toDev.to
AI/ML

모델 변경 없이 Feature Engineering만으로 정확도 14%p 향상

Better Data Beats Better Algorithms: Before Changing the Model, Change the Data

Vineet Chauhan2026년 6월 6일5beginner

Context

ML 모델 성능 저하 시 알고리즘 교체에 집중하는 일반적인 접근 방식의 한계 분석. 결측치, Outlier, 범주형 변수 등 정제되지 않은 Raw Data가 모델의 학습 효율을 저해하는 병목 지점으로 작용.

Technical Solution

  • KNN Imputation 도입을 통한 레코드 간 관계 보존 및 데이터 손실 최소화
  • IQR 기반 Outlier 제거를 통한 노이즈 차단 및 데이터 분포 최적화
  • One-Hot 및 Ordinal Encoding 적용으로 범주형 변수의 머신 가독성 확보
  • MinMax Scaling 구현으로 특성별 값 범위 통일을 통한 거리 기반 알고리즘의 편향성 제거
  • 데이터 정제 프로세스 설계를 통한 모델 복잡도 증가 없는 성능 최적화 구현

1. 단순 행 삭제 대신 KNN 등 고도화된 Imputation 전략 검토

2. Boxplot 시각화를 통한 IQR 기반 Outlier 처리 범위 설정

3. 데이터 특성에 맞는 Encoding(One-Hot vs Ordinal) 선택

4. Feature Scaling 적용을 통한 모델 입력 값의 스케일 통일

원문 읽기