피드로 돌아가기
QN : Ingest and transform data in a lakehouse
Dev.toDev.to
Database

Files-Tables 이원화 구조를 통한 Lakehouse 데이터 거버넌스 및 쿼리 효율 최적화

QN : Ingest and transform data in a lakehouse

Paulet Wairagu2026년 6월 9일2intermediate

Context

데이터 탐색의 유연성과 SQL 기반의 정형 쿼리 성능을 동시에 확보해야 하는 Lakehouse 환경의 요구사항 반영. Raw 데이터의 자유로운 저장과 ACID 트랜잭션이 보장되는 정형 데이터 관리 체계의 분리 필요성 대두.

Technical Solution

  • Raw/Semi-structured 데이터 저장을 위한 Files 영역과 SQL 쿼리 및 ACID 트랜잭션을 지원하는 Tables 영역의 스토리지 계층 분리
  • Business Function 및 Domain 기반의 Schema 정의를 통한 데이터 논리적 그룹화 및 Schema-level Permission 제어 구현
  • Lakehouse Explorer를 통한 데이터 관리와 SQL Analytics Endpoint를 통한 Read-only T-SQL 쿼리 경로의 물리적 분리
  • Data Factory Pipeline의 Copy data 및 Shortcuts 기능을 활용한 데이터 중복 복제 최소화 및 One Lake 기반의 외부 데이터 참조 구조 설계
  • 복잡한 데이터 변환을 위한 PySpark-based Programmatic Manipulation과 표준 SQL 패턴을 위한 Spark SQL의 하이브리드 처리 전략 채택
  • 비즈니스 로직 캡슐화 및 다운스트림 데이터 제공을 위한 SQL Views 기반의 큐레이션 레이어 구성

1. 데이터 성격에 따라 Raw(Files)와 Refined(Tables) 저장소를 엄격히 분리했는지 검토

2. 데이터 중복 방지를 위해 물리적 복제 대신 Shortcuts 기반의 참조 구조 도입 고려

3. 읽기 전용 분석 쿼리와 데이터 수정 작업을 분리하기 위해 SQL Analytics Endpoint와 같은 전용 엔드포인트 활용

4. 반복되는 비즈니스 룰은 SQL View로 추상화하여 쿼리 재사용성 확보

원문 읽기