피드로 돌아가기
Statistics Basics: Mean, Median, Variance
Dev.toDev.to
AI/ML

Outlier 제어로 데이터 분포의 왜곡을 막는 Feature Normalization 핵심 전략

Statistics Basics: Mean, Median, Variance

Akhilesh2026년 4월 24일10beginner

Context

데이터의 정밀한 분석 없는 모델 학습은 예측 불가능한 동작과 성능 저하를 초래함. 특히 Outlier 존재 시 Mean 중심의 분석은 데이터의 실제 중심점을 왜곡하는 한계점을 가짐.

Technical Solution

  • Outlier 영향력을 최소화하기 위해 정렬 기반의 Median을 사용하여 데이터의 실제 중심점 파악
  • Mean 기반의 Variance 계산을 통해 데이터의 분산 정도를 정량화하여 분포의 특성 식별
  • Variance의 제곱 단위 문제를 해결하기 위해 Square Root를 적용한 Standard Deviation 산출
  • 서로 다른 스케일의 Feature 간 가중치 불균형을 해소하기 위해 Z-score 기반의 Normalization 적용
  • Mean 0, Std 1의 표준 분포로 변환하여 모델이 모든 Feature를 동일한 비중으로 처리하도록 설계

Key Takeaway

데이터의 분포 특성에 따라 분석 지표(Mean vs Median)를 선택하고, 정규화를 통해 모델의 수렴 속도와 성능을 최적화하는 데이터 전처리 파이프라인 구축의 중요성


1. 데이터셋에 Outlier가 존재하는지 확인하고 Mean과 Median의 괴리율 검토

2. Response Time이나 Income 같은 Skewed Data 처리 시 Median을 기본 지표로 채택

3. 모델 학습 전 Feature 간 단위 차이가 클 경우 Standard Deviation 기반 Normalization 적용 여부 검토

4. Z-score를 활용하여 2 Standard Deviation 이상의 이상치를 탐색하고 제거 전략 수립

원문 읽기