LGD Code 기반 정규화로 인도 인구 데이터 무결성 100% 확보

I cleaned India's Census 2011 data so you never have to

Ansuman Jaiswal2026년 6월 16일3분intermediate

AI 요약

Context

정부 제공 Excel 파일의 비정형 헤더와 문서화 부재로 인한 데이터 로딩 병목 발생. 지역 명칭의 불일치로 인해 서로 다른 데이터셋 간 Join 작업 시 심각한 데이터 유실 및 정합성 문제 노출.

Technical Solution

비정형 Raw Data의 필터링 및 정제 과정을 거친 Reproducible Pipeline 구축
지역별 고유 식별자인 LGD Code를 Primary Key로 도입하여 명칭 기반 매칭의 불확실성 제거
누락된 행정 구역(Yanam, Mahe)에 대한 Manual Verification 및 데이터 보정 수행
대규모 분석 효율성을 위해 Pandas 호환성이 높은 Parquet 포맷으로 직렬화
전체 지역 인구 합계와 공식 국가 통계 수치를 대조하는 Validation 단계 강제 적용

Impact

640개 지역, 29개 컬럼의 데이터셋에서 Missing Value 0건 달성
공식 국가 총인구수 1,210,854,977명과 합계 데이터 간 오차 0% 실현

Key Takeaway

자연어 기반의 식별자 대신 변하지 않는 고유 ID(LGD Code)를 기준으로 데이터 모델을 설계하여 시스템 간 통합 무결성을 보장하는 정규화 전략의 중요성.

실천 포인트

- 외부 데이터 통합 시 텍스트 매칭 대신 불변의 고유 식별자(Unique Identifier) 존재 여부 확인 - 데이터 파이프라인의 최종 단계에 비즈니스 로직 기반의 수치 검증(Aggregation Check) 단계 포함 - 분석 효율 증대를 위해 CSV 대신 스키마 정보가 포함된 Parquet 포맷 채택 검토

태그

#Data Validation #Data Normalization #Parquet #Data Engineering #ETL Pipeline

원문 읽기