피드로 돌아가기
When Catalogs Are Embedded in Storage
Dev.toDev.to
Database

Catalog을 Storage에 내장하여 운영 복잡성을 제거한 Embedded Catalog 아키텍처

When Catalogs Are Embedded in Storage

Alex Merced2026년 5월 22일6intermediate

Context

기존 Iceberg 구조는 Query Engine, Standalone Catalog, Object Storage의 3계층 분리 구조로 인해 관리 포인트가 분산됨. 특히 Snapshot 관리, Compaction, Orphan File 정리 등 테이블 유지보수를 위한 별도 컴퓨팅 자원 운영과 복잡한 권한 설정이 병목 지점으로 작용함.

Technical Solution

  • Storage Layer 내에 Catalog 기능을 통합하여 Metadata 포인터 관리와 데이터 접근 엔드포인트를 단일화한 설계
  • S3 Tables의 Table Bucket 도입을 통한 Iceberg Metadata의 내부 자동 관리 및 Atomic Commit 보장
  • Background Process 기반의 자동 Compaction 및 Snapshot Expiry 기능을 Storage 레벨에서 구현하여 사용자 설정 부담 제거
  • REST-catalog 호환 인터페이스 제공을 통한 Spark, Trino 등 다양한 Query Engine과의 표준 연결성 확보
  • MinIO AI Stor를 통한 On-premises 환경에서의 Catalog 내장 및 Vector Storage 통합 구조 설계
  • IAM 기반의 단순화된 권한 제어 모델을 통해 서비스 간 인증 절차 간소화

- 단일 클라우드/벤더 환경에서 운영 공수 최소화가 우선순위인 경우 Embedded Catalog 검토 - Multi-cloud 포팅 가능성이나 정밀한 Column-level Access Control이 필요한 경우 Standalone Catalog 유지 - Storage 벤더 종속성(Vendor Lock-in)에 따른 마이그레이션 리스크와 내부 유지보수 가시성 저하 수준 분석 - Compute-Storage 지역 일치 여부에 따른 Cross-region Latency 영향도 평가

원문 읽기