SQL 카탈로그 기반 설계로 Iceberg 대비 쿼리 속도 926배 향상

DuckLake 1.0: el formato de data lake que mueve el catálogo de archivos a SQL y promete 926 más velocidad que Iceberg

lu1tr0n2026년 5월 7일13분intermediate

AI 요약

Context

기존 Lakehouse 아키텍처는 메타데이터를 Object Storage 내 JSON/Avro 파일로 관리함에 따라 빈번한 소규모 쓰기 작업 시 'Small File Problem' 발생. 이로 인해 수만 개의 미세 파일이 생성되어 쿼리 성능 저하 및 Object Storage 요청 비용 증가라는 구조적 한계에 직면함.

Technical Solution

메타데이터 관리 계층을 파일 기반에서 Relational Database(PostgreSQL, SQLite, DuckDB)로 전환한 SQL Catalog 구조 설계
소규모 데이터 쓰기 시 즉시 Parquet 파일을 생성하지 않고 DB 내에 임시 저장하는 Data Inlining 메커니즘 도입
설정된 Threshold(기본 10행) 초과 시점에만 데이터를 Parquet 형태로 Object Storage에 flush 하는 지연 쓰기 전략 적용
기존 생태계 호환성을 위해 실제 데이터 저장소는 Parquet 포맷을 유지하고 Iceberg v3 호환 Deletion Vectors 지원
데이터 접근 경로를 SQL DB 기반으로 최적화하여 파일 리스팅 오버헤드를 제거한 아키텍처 구현

실천 포인트

- 소규모 쓰기 작업이 빈번한 Workload인지 확인 - 관리 대상 데이터 규모가 단일 Lakehouse 기준 1PB 미만인지 검토 - 기존 Spark, Trino, Pandas 등 에코시스템과의 통합 필요성 확인 - Postgres/SQLite 등 관리 가능한 RDBMS 인프라 확보 여부 체크

태그

#Data Inlining #Small File Problem #Parquet #Lakehouse #SQL Catalog

원문 읽기