Files-Tables 이원화 구조를 통한 Lakehouse 데이터 거버넌스 및 쿼리 효율 최적화

QN : Ingest and transform data in a lakehouse

Paulet Wairagu2026년 6월 9일2분intermediate

AI 요약

Context

데이터 탐색의 유연성과 SQL 기반의 정형 쿼리 성능을 동시에 확보해야 하는 Lakehouse 환경의 요구사항 반영. Raw 데이터의 자유로운 저장과 ACID 트랜잭션이 보장되는 정형 데이터 관리 체계의 분리 필요성 대두.

Raw/Semi-structured 데이터 저장을 위한 Files 영역과 SQL 쿼리 및 ACID 트랜잭션을 지원하는 Tables 영역의 스토리지 계층 분리
Business Function 및 Domain 기반의 Schema 정의를 통한 데이터 논리적 그룹화 및 Schema-level Permission 제어 구현
Lakehouse Explorer를 통한 데이터 관리와 SQL Analytics Endpoint를 통한 Read-only T-SQL 쿼리 경로의 물리적 분리
Data Factory Pipeline의 Copy data 및 Shortcuts 기능을 활용한 데이터 중복 복제 최소화 및 One Lake 기반의 외부 데이터 참조 구조 설계
복잡한 데이터 변환을 위한 PySpark-based Programmatic Manipulation과 표준 SQL 패턴을 위한 Spark SQL의 하이브리드 처리 전략 채택
비즈니스 로직 캡슐화 및 다운스트림 데이터 제공을 위한 SQL Views 기반의 큐레이션 레이어 구성

실천 포인트

1. 데이터 성격에 따라 Raw(Files)와 Refined(Tables) 저장소를 엄격히 분리했는지 검토

2. 데이터 중복 방지를 위해 물리적 복제 대신 Shortcuts 기반의 참조 구조 도입 고려

3. 읽기 전용 분석 쿼리와 데이터 수정 작업을 분리하기 위해 SQL Analytics Endpoint와 같은 전용 엔드포인트 활용

4. 반복되는 비즈니스 룰은 SQL View로 추상화하여 쿼리 재사용성 확보

태그