Apache Iceberg v4: 대규모 스트리밍 및 AI 워크로드 대응을 위한 메타데이터 계층 전면 재설계

Apache Iceberg v4: The Current State, the Proposals, and Why They Matter

Alex Merced2026년 6월 9일27분advanced

AI 요약

Context

S3 등 Object Storage의 Directory Listing 병목을 해결한 기존 Metadata Tree 구조가 대규모 배치 분석에는 유효했으나, 수 초 단위의 Streaming Commit과 수천 개의 컬럼을 가진 ML Feature Table 처리 시 성능 저하 발생. 특히 데이터 이동성 제약과 메타데이터 쓰기 비용 증가로 인한 운영 한계 직면.

Technical Solution

Adaptive Metadata Tree 도입을 통한 Commit 비용 감소 및 쓰기 성능 최적화
메타데이터 자체를 Parquet 포맷으로 관리하여 Metadata-rich 환경에서의 Query Planning 속도 향상
Typed Statistics 적용을 통한 통계 정보의 신뢰성 확보 및 Vector Search 확장 기반 마련
Relative Paths 구조 채택으로 Bucket 및 Region 간 Table Portability 확보
Column Families 설계를 통한 Wide Table의 부분 업데이트 효율성 증대
Delta Convergence 제안을 통한 서로 다른 Table Format 간의 기반 기술 통합 시도

실천 포인트

1. 실시간 Commit 주기가 짧은 파이프라인 설계 시 현재 v3의 메타데이터 생성 오버헤드 검토

2. Wide Table 운영 시 전체 Rewrite 대신 Column Families와 같은 부분 업데이트 전략 고려

3. 멀티 리전 재해 복구(DR) 계획 수립 시 Absolute Path 대신 Relative Path 기반의 이식성 검토

태그

#Object Storage #Apache Iceberg #Column Family #Metadata Layer #Table Format

원문 읽기