피드로 돌아가기
Apache Data Lakehouse Weekly: May 13-20, 2026
Dev.toDev.to
Database

Iceberg V4 Spec 및 Parquet 구조 개선을 통한 Lakehouse 포터빌리티 강화

Apache Data Lakehouse Weekly: May 13-20, 2026

Alex Merced2026년 5월 20일21advanced

Context

기존 Lakehouse 아키텍처 내 절대 경로 사용으로 인한 스토리지 간 이동 제약 발생. 또한 Catalog 구현체별로 상이한 REST API 동작 방식으로 인한 클라이언트 호환성 저하 및 쿼리 플래닝 효율성 한계 직면.

Technical Solution

  • Relative Path 도입을 통한 Bucket 및 Region 변경 시 Manifest 재작성 없는 데이터 이동 구조 설계
  • Content Stats 표현 방식 최적화로 엔진의 Aggressive Pruning 유도 및 스캔 비용 절감
  • REST Spec 내 unregister table 엔드포인트 표준화를 통한 Catalog 간 일관된 테이블 제거 메커니즘 구축
  • X-Iceberg-Client-Capabilities 헤더 도입으로 클라이언트-카탈로그 간 기능 협상 프로토콜 구현
  • Parquet Footer Working Group 신설을 통한 근본적 데이터 구조체 최적화 및 포맷 진화 체계 마련

1. 클라우드 간 데이터 마이그레이션 및 DR 구축 시 Absolute Path 대신 Relative Path 기반 설계 검토

2. API 설계 시 하위 호환성 유지와 기능 확장을 위해 클라이언트 Capability Negotiation 헤더 도입 고려

3. 쿼리 성능 최적화를 위해 스토리지 레벨의 통계 정보(Stats)가 쿼리 플래너에 전달되는 경로와 정밀도 확인

원문 읽기