피드로 돌아가기
How I Explored a US Health Dataset with Python — EDA + Hypothesis Testing
Dev.toDev.to
AI/ML

IQR 기반 이상치 제거와 가설 검정으로 도출한 NHANES 보건 데이터 분석

How I Explored a US Health Dataset with Python — EDA + Hypothesis Testing

EricMWaimiri2026년 6월 28일10beginner

Context

CDC의 NHANES 보건 데이터셋 내 Numeric Code 기반 저장 방식으로 인한 데이터 해석의 모호성 존재. skewed distribution 특성을 가진 BMI 및 체중 데이터의 통계적 왜곡을 해결해야 하는 상황.

Technical Solution

  • Data Mapping 레이어 설계를 통한 Numeric Code의 가독성 있는 Label 전환으로 분석 무결성 확보
  • IQR(Interquartile Range) method를 적용하여 Height, Weight, BMI의 극단값 제거 및 데이터 정제
  • Pandas의 Binning 기법을 활용해 연속형 변수인 Age를 Decade Band로 범주화하여 그룹별 비교 분석 수행
  • scipy.stats 라이브러리를 통해 Independent t-test, Chi-square, Proportion z-test 등 목적에 맞는 통계 검정 방법론 채택
  • Mean과 Median의 간극 분석을 통한 데이터 분포의 Right-skewed 특성 사전 식별 및 검증

Impact

  • IQR 기반 정제로 5,735행에서 5,171행으로 데이터 최적화
  • Null 값 제거를 통해 약 6%의 데이터 손실을 감수하고 분석 신뢰도 향상
  • 성별 BMI 평균 차이(28.21 vs 29.09)의 통계적 유의성(p < 0.05) 입증

Key Takeaway

통계적 유의성(Statistical Significance)이 반드시 실무적 유의성(Practical Significance)을 보장하지 않으므로, p-value와 실제 수치 차이를 동시에 분석하는 다각적 검증 체계가 필수적임.


- 분석 전 Mean-Median Gap을 확인하여 데이터 분포의 왜곡 정도를 빠르게 파악할 것 - Numeric Code로 구성된 데이터셋은 분석 전 단계에서 반드시 명시적인 Mapping Table을 구축할 것 - Outlier 제거 시 IQR과 같은 표준화된 정량적 기준을 적용하여 정제 과정의 재현성을 확보할 것

원문 읽기