피드로 돌아가기
Apache Data Lakehouse Weekly: April 30–May 6, 2026
Dev.toDev.to
Database

Iceberg V4 설계 기반 PB급 Feature Store 최적화 및 Polaris 안정화

Apache Data Lakehouse Weekly: April 30–May 6, 2026

Alex Merced2026년 5월 6일9advanced

Context

Petabyte-scale Feature Store의 수천 개 Embedding 및 Model-score 컬럼 업데이트 시 발생하는 과도한 Metadata Footprint와 Latency 문제 직면. 기존 구조로는 광범위한 테이블의 부분 업데이트 시 쓰기 오버헤드가 심화되는 한계 존재.

Technical Solution

  • 변경된 컬럼만 기록한 후 Read-time에 병합하는 'Efficient Column Updates' 설계를 통한 쓰기 부하 감소
  • Catalog-managed Metadata를 First-class 모드로 처리하고 Static-table Portability를 Opt-in 방식으로 제공하는 V4 metadata.json 구조 설계
  • LoadTableResponse에 표준 Optional 필드를 도입하여 Polaris, Unity Catalog 등 서로 다른 Catalog 간의 Metadata 상호운용성 확보
  • 단일 파일 커밋(Single-file commits) 제안을 통한 Metadata 업데이트 빈도 최적화 및 쓰기 효율 개선
  • OpenLineage 통합을 통한 Polaris 내 데이터 계보 추적 가능성 확보 및 구현 RFC 추진

- 대규모 Wide Table 설계 시 전체 행 업데이트 대신 변경 컬럼만 기록하고 읽기 시점에 Stitching 하는 전략 검토 - 다양한 Catalog 환경을 고려하여 Metadata 필드 설계 시 필수값이 아닌 Optional 필드 기반의 확장 구조 채택 - 프로젝트 규모 확장 시 KMS 업그레이드 버그, Helm 차트 불일치 등 Enterprise-readiness 관점의 배포 파이프라인 검증

원문 읽기