피드로 돌아가기
Apache Iceberg v4: The Current State, the Proposals, and Why They Matter
Dev.toDev.to
Database

Apache Iceberg v4: 대규모 스트리밍 및 AI 워크로드 대응을 위한 메타데이터 계층 전면 재설계

Apache Iceberg v4: The Current State, the Proposals, and Why They Matter

Alex Merced2026년 6월 9일27advanced

Context

S3 등 Object Storage의 Directory Listing 병목을 해결한 기존 Metadata Tree 구조가 대규모 배치 분석에는 유효했으나, 수 초 단위의 Streaming Commit과 수천 개의 컬럼을 가진 ML Feature Table 처리 시 성능 저하 발생. 특히 데이터 이동성 제약과 메타데이터 쓰기 비용 증가로 인한 운영 한계 직면.

Technical Solution

  • Adaptive Metadata Tree 도입을 통한 Commit 비용 감소 및 쓰기 성능 최적화
  • 메타데이터 자체를 Parquet 포맷으로 관리하여 Metadata-rich 환경에서의 Query Planning 속도 향상
  • Typed Statistics 적용을 통한 통계 정보의 신뢰성 확보 및 Vector Search 확장 기반 마련
  • Relative Paths 구조 채택으로 Bucket 및 Region 간 Table Portability 확보
  • Column Families 설계를 통한 Wide Table의 부분 업데이트 효율성 증대
  • Delta Convergence 제안을 통한 서로 다른 Table Format 간의 기반 기술 통합 시도

1. 실시간 Commit 주기가 짧은 파이프라인 설계 시 현재 v3의 메타데이터 생성 오버헤드 검토

2. Wide Table 운영 시 전체 Rewrite 대신 Column Families와 같은 부분 업데이트 전략 고려

3. 멀티 리전 재해 복구(DR) 계획 수립 시 Absolute Path 대신 Relative Path 기반의 이식성 검토

원문 읽기