피드로 돌아가기
Dev.toDatabase
원문 읽기
Star Schema 기반 데이터 모델링을 통한 분석 쿼리 최적화 및 정합성 확보
Power BI: From Data Cleaning to Interactive Dashboards
AI 요약
Context
비정형 및 누락 데이터가 포함된 원천 데이터의 낮은 품질로 인한 분석 신뢰도 저하 발생. 데이터 중복과 복잡한 관계 설정으로 인한 쿼리 성능 저하 및 리포트 응답 속도 지연 문제 해결 필요.
Technical Solution
- Power Query를 활용한 데이터 정제 단계에서 텍스트 컬럼의 N/A 처리 및 수치형 컬럼의 통계적 보간법 적용을 통한 데이터 품질 표준화
- 데이터 무결성 확보를 위해 결측치 90% 이상인 레코드를 제거하는 필터링 전략 채택
- Fact Table과 Dimension Table의 분리를 통한 Star Schema 설계로 데이터 중복 제거 및 조인 연산 최적화
- Primary Key와 Foreign Key 기반의 One-to-Many 관계 설정을 통해 물리적 병합 없이 논리적 연결 구조 구축
- 분석 요구사항에 따라 물리적 데이터 통합이 필요한 경우에 한해 Power Query 내 Join 연산을 수행하여 모델 로드 부하 경감
- 정규화 수준을 높인 Snowflake Schema와 단순성을 강조한 Star Schema의 트레이드오프 분석을 통한 모델 선택
실천 포인트
1. 데이터 정제 시 결측치 비율(예: 90%) 기준 수립 및 컬럼 타입별 보간 전략 정의
2. 분석 성능 최적화를 위해 기본적으로 Star Schema 구조를 우선 검토
3. 물리적 Join과 논리적 Relationship의 차이를 구분하여 메모리 사용량 최적화
4. Fact Table에는 집계 가능한 수치 데이터를, Dimension Table에는 필터링용 속성 데이터를 배치