피드로 돌아가기
Dev.toAI/ML
원문 읽기
Standardization 누락으로 인한 Production 오분류율 40% 발생 및 Decision Boundary 왜곡 분석
Visualizing Why Standardization Changes Decision Boundaries
AI 요약
Context
Distance-based 알고리즘인 SVM 적용 시 Feature 간 Scale 차이가 Decision Boundary 형성에 결정적 영향을 미치는 구조적 한계 존재. Income(20,000-200,000)과 Age(20-60)처럼 단위 차이가 큰 데이터셋에서 특정 Feature가 거리 계산을 지배하는 현상 발생.
Technical Solution
- StandardScaler 도입을 통한 모든 Feature의 Mean=0, Std=1 정규화 수행
- Distance Calculation 시 특정 Feature의 지배력을 제거하여 모든 변수가 동일한 가중치로 반영되는 구조 설계
- Standardization을 통한 Decision Boundary의 Rotation 및 Reshaping 유도로 실제 데이터 구조에 부합하는 하이퍼플레인 도출
- Training set에서 Scaler를 Fit한 후 Validation 및 Production 데이터에 동일한 파라미터를 적용하는 데이터 파이프라인 구축
- Distance-based 알고리즘의 특성에 따라 거리 측정 방식이 $\sqrt{(\Delta age)^2 + (\Delta income)^2}$에서 정규화된 거리로 변경됨을 통해 모델의 학습 패턴을 최적화
실천 포인트
1. SVM, kNN, Neural Networks 도입 시 Feature 간 Scale 차이가 10배 이상인지 확인
2. Scaler Fit 과정이 Training set에만 국한되어 Data Leakage가 없는지 검토
3. `model.coef_` 값을 분석하여 특정 Feature가 지배적인 영향력을 가지는지 확인
4. Tree-based 알고리즘 외의 거리 기반 모델 적용 시 Standardization 적용 여부를 필수 체크리스트에 포함