Outlier 제어로 데이터 분포의 왜곡을 막는 Feature Normalization 핵심 전략

Statistics Basics: Mean, Median, Variance

Akhilesh2026년 4월 24일10분beginner

AI 요약

Context

데이터의 정밀한 분석 없는 모델 학습은 예측 불가능한 동작과 성능 저하를 초래함. 특히 Outlier 존재 시 Mean 중심의 분석은 데이터의 실제 중심점을 왜곡하는 한계점을 가짐.

데이터의 분포 특성에 따라 분석 지표(Mean vs Median)를 선택하고, 정규화를 통해 모델의 수렴 속도와 성능을 최적화하는 데이터 전처리 파이프라인 구축의 중요성

실천 포인트

1. 데이터셋에 Outlier가 존재하는지 확인하고 Mean과 Median의 괴리율 검토

2. Response Time이나 Income 같은 Skewed Data 처리 시 Median을 기본 지표로 채택

3. 모델 학습 전 Feature 간 단위 차이가 클 경우 Standard Deviation 기반 Normalization 적용 여부 검토

4. Z-score를 활용하여 2 Standard Deviation 이상의 이상치를 탐색하고 제거 전략 수립

태그