피드로 돌아가기
Dev.toDatabase
원문 읽기
16만 건 이상의 정형/비정형 데이터 정제 및 M-code 기반 ETL 파이프라인 최적화
Mastering Power Query in Power BI: A Complete Data Transformation Guide
AI 요약
Context
다양한 소스에서 유입된 163,000건 이상의 Sales 데이터와 결측치가 다수 포함된 CSV 파일의 불일치 문제 발생. 원본 데이터의 낮은 품질로 인해 DAX 측정식의 복잡도 증가 및 리포트 쿼리 성능 저하가 우려되는 상황.
Technical Solution
- Data Profiling 기능을 통한 Column Quality 및 Distribution 분석으로 Null 비율과 Cardinality의 이상치 식별
- Surrogate Key 부재 해결을 위해 Index Column을 생성하여 Table 간 Relationship 구축을 위한 고유 식별자 확보
- M-code 기반의 Conditional Column 설계를 통한 데이터 범주화 및 데이터 품질 이슈의 사전 플래깅 처리
- Column from Examples 기능을 활용한 AI 기반 패턴 추론으로 복잡한 정규식 없이 비정형 텍스트 표준화 구현
- Wide Format의 데이터를 Long Format으로 전환하는 Unpivot 작업을 통한 모델 크기 최적화 및 쿼리 부하 감소
- Date Type 변환 및 시간 단위 추출을 통한 Time Intelligence 분석을 위한 Calendar Table 구조 설계
실천 포인트
- 데이터 로드 전 Column Quality 체크를 통한 Null/Error 비율 정밀 진단 - 원본 키의 신뢰도가 낮을 경우 Index Column을 통한 Surrogate Key 생성 검토 - DAX 연산 부하를 줄이기 위해 가능한 모든 변환 로직을 Power Query(ETL 단계)에서 선처리 - 데이터 모델의 효율성을 위해 Pivot 구조를 Unpivot하여 정규화된 스키마 유지