Standardization 누락으로 인한 Production 오분류율 40% 발생 및 Decision Boundary 왜곡 분석

Visualizing Why Standardization Changes Decision Boundaries

hqqqqy2026년 5월 15일11분intermediate

AI 요약

Context

Distance-based 알고리즘인 SVM 적용 시 Feature 간 Scale 차이가 Decision Boundary 형성에 결정적 영향을 미치는 구조적 한계 존재. Income(20,000-200,000)과 Age(20-60)처럼 단위 차이가 큰 데이터셋에서 특정 Feature가 거리 계산을 지배하는 현상 발생.

Technical Solution

StandardScaler 도입을 통한 모든 Feature의 Mean=0, Std=1 정규화 수행
Distance Calculation 시 특정 Feature의 지배력을 제거하여 모든 변수가 동일한 가중치로 반영되는 구조 설계
Standardization을 통한 Decision Boundary의 Rotation 및 Reshaping 유도로 실제 데이터 구조에 부합하는 하이퍼플레인 도출
Training set에서 Scaler를 Fit한 후 Validation 및 Production 데이터에 동일한 파라미터를 적용하는 데이터 파이프라인 구축
Distance-based 알고리즘의 특성에 따라 거리 측정 방식이 $\sqrt{(\Delta age)^2 + (\Delta income)^2}$에서 정규화된 거리로 변경됨을 통해 모델의 학습 패턴을 최적화

실천 포인트

1. SVM, kNN, Neural Networks 도입 시 Feature 간 Scale 차이가 10배 이상인지 확인

2. Scaler Fit 과정이 Training set에만 국한되어 Data Leakage가 없는지 검토

3. `model.coef_` 값을 분석하여 특정 Feature가 지배적인 영향력을 가지는지 확인

4. Tree-based 알고리즘 외의 거리 기반 모델 적용 시 Standardization 적용 여부를 필수 체크리스트에 포함

태그

#Distance-based Algorithm #SVM #Standardization #Decision Boundary #Feature Scaling

원문 읽기