IQR 기반 이상치 제거와 가설 검정으로 도출한 NHANES 보건 데이터 분석

How I Explored a US Health Dataset with Python — EDA + Hypothesis Testing

EricMWaimiri2026년 6월 28일10분beginner

AI 요약

Context

CDC의 NHANES 보건 데이터셋 내 Numeric Code 기반 저장 방식으로 인한 데이터 해석의 모호성 존재. skewed distribution 특성을 가진 BMI 및 체중 데이터의 통계적 왜곡을 해결해야 하는 상황.

Technical Solution

Data Mapping 레이어 설계를 통한 Numeric Code의 가독성 있는 Label 전환으로 분석 무결성 확보
IQR(Interquartile Range) method를 적용하여 Height, Weight, BMI의 극단값 제거 및 데이터 정제
Pandas의 Binning 기법을 활용해 연속형 변수인 Age를 Decade Band로 범주화하여 그룹별 비교 분석 수행
scipy.stats 라이브러리를 통해 Independent t-test, Chi-square, Proportion z-test 등 목적에 맞는 통계 검정 방법론 채택
Mean과 Median의 간극 분석을 통한 데이터 분포의 Right-skewed 특성 사전 식별 및 검증

Impact

IQR 기반 정제로 5,735행에서 5,171행으로 데이터 최적화
Null 값 제거를 통해 약 6%의 데이터 손실을 감수하고 분석 신뢰도 향상
성별 BMI 평균 차이(28.21 vs 29.09)의 통계적 유의성(p < 0.05) 입증

Key Takeaway

통계적 유의성(Statistical Significance)이 반드시 실무적 유의성(Practical Significance)을 보장하지 않으므로, p-value와 실제 수치 차이를 동시에 분석하는 다각적 검증 체계가 필수적임.

실천 포인트

- 분석 전 Mean-Median Gap을 확인하여 데이터 분포의 왜곡 정도를 빠르게 파악할 것 - Numeric Code로 구성된 데이터셋은 분석 전 단계에서 반드시 명시적인 Mapping Table을 구축할 것 - Outlier 제거 시 IQR과 같은 표준화된 정량적 기준을 적용하여 정제 과정의 재현성을 확보할 것

태그

#Statistical Significance #Hypothesis Testing #IQR #Pandas #EDA

원문 읽기