데이터 정제 파이프라인 최적화를 통한 결측치 27.6% 감소 및 분석 신뢰도 확보

10.430 muertes, 10 preguntas y un pipeline en Python: lo que los datos de violencia policial en EE.UU. no te cuentan a simple vista

David Naranjo Ramírez2026년 5월 27일3분intermediate

AI 요약

Context

공식 통계의 심각한 과소평가 및 데이터 누락으로 인한 분석 신뢰도 저하 문제 직면. 원천 데이터의 결측값과 Feature Engineering 단계의 논리적 오류로 인해 정량적 분석의 왜곡 가능성 존재.

데이터 무결성 확보를 위한 Census Bureau, NCSL, FIPS Table 기반의 다중 데이터 소스 Join 구조 설계
도시-주(City-State) 매핑 정보의 최빈값(Mode)을 활용한 자체 매핑 테이블 구축으로 County 결측치 보완
Regex 패턴 수정을 통한 'Fleeing' 행동 분류 로직의 정밀도 개선 및 데이터 누락 방지
np.select의 Default 값 할당 오류 수정을 통한 'Armed' 상태 판별 로직의 엄격한 정의 적용
정규화(Normalization) 프로세스 도입을 통한 단순 합계 기반 분석의 통계적 왜곡 해결
재현성 보장을 위해 Cleaning, Enrichment, Feature Engineering, EDA 단계로 구성된 Modular Pipeline 구축

실천 포인트

1. Feature Engineering 시 np.select 등 조건부 할당 함수의 Default 값이 비즈니스 로직상 'Unknown'을 'True/False'로 오분류하지 않는지 검토

2. 데이터 Join 전 결측치 발생 패턴을 분석하여 최빈값이나 외부 참조 테이블을 활용한 Data Imputation 전략 수립

3. 단순 집계 데이터가 아닌 인구수/시간 등 기준 변수를 활용한 Normalization 적용 여부 확인

태그