피드로 돌아가기
DuckDB uses RDBMS to attack classic 'small changes' problem in lakehouses
The RegisterThe Register
Database

RDBMS 기반 메타데이터 관리로 Iceberg 대비 쿼리 속도 926배 향상

DuckDB uses RDBMS to attack classic 'small changes' problem in lakehouses

Lindsay Clark2026년 4월 16일4advanced

Context

Parquet 파일 기반 Lakehouse 아키텍처의 구조적 한계로 인한 'small changes' 문제 발생. 단일 행 추가 시에도 새로운 파일 생성과 메타데이터 업데이트가 강제되어 Object Store의 I/O 효율성이 극도로 저하되는 병목 지점 존재.

Technical Solution

  • Metadata RDBMS를 도입하여 작은 변경 사항을 일시적으로 수용하는 버퍼 구조 설계
  • PostgreSQL, SQLite, DuckDB 등을 Catalog Database로 활용하여 행 단위 추가/삭제를 효율적으로 처리
  • Object Store에 직접 쓰지 않고 RDBMS 내 테이블에 변경분을 누적하는 Batching 전략 채택
  • 누적된 데이터를 일정 규모 이상의 덩어리로 묶어 Parquet 파일로 변환하는 Flush 메커니즘 구현
  • 사용자에게는 기존 Lakehouse와 동일한 뷰를 제공하면서 내부적으로는 스토리지 계층을 분리한 투명한 아키텍처 지향

Impact

  • Iceberg 대비 쿼리 처리 속도 926배 향상
  • Iceberg 대비 데이터 Ingestion 속도 105배 향상

Key Takeaway

불변성(Immutability) 중심의 Object Storage 제약을 극복하기 위해, 쓰기 최적화된 RDBMS를 쓰기 버퍼 및 메타데이터 관리 계층으로 전진 배치하는 하이브리드 설계의 유효성 증명


- 쓰기 빈도가 높고 데이터 크기가 작은 업데이트가 빈번한 Lakehouse 설계 시 Write-Ahead-Log 성격의 DB 계층 검토 - Parquet 등 컬럼형 저장소의 Small File Problem 해결을 위해 애플리케이션 레벨의 Batching 혹은 중간 저장소 도입 고려 - 단순 파일 시스템 기반 메타데이터 관리에서 RDBMS 기반 Catalog 관리로의 전환을 통한 트랜잭션 효율성 확보

원문 읽기