피드로 돌아가기
Dev.toAI/ML
원문 읽기
데이터 정제 파이프라인 최적화를 통한 결측치 27.6% 감소 및 분석 신뢰도 확보
10.430 muertes, 10 preguntas y un pipeline en Python: lo que los datos de violencia policial en EE.UU. no te cuentan a simple vista
AI 요약
Context
공식 통계의 심각한 과소평가 및 데이터 누락으로 인한 분석 신뢰도 저하 문제 직면. 원천 데이터의 결측값과 Feature Engineering 단계의 논리적 오류로 인해 정량적 분석의 왜곡 가능성 존재.
Technical Solution
- 데이터 무결성 확보를 위한 Census Bureau, NCSL, FIPS Table 기반의 다중 데이터 소스 Join 구조 설계
- 도시-주(City-State) 매핑 정보의 최빈값(Mode)을 활용한 자체 매핑 테이블 구축으로 County 결측치 보완
- Regex 패턴 수정을 통한 'Fleeing' 행동 분류 로직의 정밀도 개선 및 데이터 누락 방지
- np.select의 Default 값 할당 오류 수정을 통한 'Armed' 상태 판별 로직의 엄격한 정의 적용
- 정규화(Normalization) 프로세스 도입을 통한 단순 합계 기반 분석의 통계적 왜곡 해결
- 재현성 보장을 위해 Cleaning, Enrichment, Feature Engineering, EDA 단계로 구성된 Modular Pipeline 구축
실천 포인트
1. Feature Engineering 시 np.select 등 조건부 할당 함수의 Default 값이 비즈니스 로직상 'Unknown'을 'True/False'로 오분류하지 않는지 검토
2. 데이터 Join 전 결측치 발생 패턴을 분석하여 최빈값이나 외부 참조 테이블을 활용한 Data Imputation 전략 수립
3. 단순 집계 데이터가 아닌 인구수/시간 등 기준 변수를 활용한 Normalization 적용 여부 확인