피드로 돌아가기
(EDA Part-3) Univariate Analysis — Understanding Every Feature One at a Time
Dev.toDev.to
AI/ML

Log Transform 및 Binary Flag 도입을 통한 데이터 편향 해결 및 정보 손실 최소화

(EDA Part-3) Univariate Analysis — Understanding Every Feature One at a Time

Shivappa2026년 4월 18일12intermediate

Context

수치형 데이터의 Right-skewed 분포와 고비율의 Null 값이 존재하는 원천 데이터셋 분석. Mean과 Median의 괴리로 인한 모델 학습 성능 저하 가능성 및 단순 삭제 시 유실되는 데이터 시그널 처리 필요성 제기.

Technical Solution

  • Histogram 분석을 통한 분포 확인 및 Mean 32.20, Median 14.45의 격차를 통한 Right-skewed 특성 식별
  • np.log1p 함수 기반 Log Transform 적용으로 극단적 고가치(Max £512.33) 데이터를 압축하여 정규분포 형태로 변환
  • Box plot 기반 Outlier 검증을 통해 데이터 오류가 아닌 실제 도메인 값임을 확인하여 임의 삭제 배제
  • Cabin 필드의 77% Null 특성을 MNAR(Missing Not At Random)으로 정의하고 Has_Cabin Binary Flag로 변환하여 객실 보유 여부의 시그널 보존
  • Pclass Median 기반의 Age Imputation 및 Embarked 필드의 Mode(S) 채우기를 통한 데이터 정합성 확보

Impact

  • Fare 데이터의 Max £512.33 및 99th percentile £249.01의 극단적 편차를 Log Transform으로 완화
  • Cabin 필드의 단순 삭제 대신 Binary Feature로 전환하여 데이터 손실 없이 클래스 정보 추출

- Mean과 Median의 유의미한 차이 발생 시 Log Transform 또는 Square Root Transform 검토 - Null 비율이 매우 높은 피처라도 도메인 관점에서 의미가 있다면 Binary Flag로 변환하여 정보 보존 - Outlier 제거 전 Box plot 분석을 통해 데이터 생성 오류인지 실제 도메인 특성인지 선행 검증

원문 읽기