피드로 돌아가기
Hacker NewsDatabase
원문 읽기
DuckDB 1.5.2: DuckLake v1.0 도입 및 TPC-H 성능 10% 향상
DuckDB 1.5.2 – SQL database that runs on laptop, server, in the browser
AI 요약
Context
Laptop부터 Server, Browser까지 아우르는 범용 SQL 엔진으로서 데이터 레이크하우스 포맷 지원 필요성 증대. 기존 환경에서 안정적인 데이터 관리와 분산 저장소 간의 호환성 확보가 핵심 과제로 부각.
Technical Solution
- DuckLake v1.0 사양 도입을 통한 Production-ready Lakehouse 아키텍처 구현
- Data Inlining, Sorted Tables, Bucket Partitioning 적용으로 데이터 조회 효율 최적화
- Iceberg-compatible Puffin 파일을 활용한 Deletion Buffer 설계로 쓰기 성능 개선
- Iceberg 확장 기능을 통한 GEOMETRY 타입 지원 및 Partitioned Table의 Update/Delete 로직 구현
- Jepsen 테스트 스위트 도입을 통한 Primary Key 충돌 해결 로직의 정밀 검증 및 버그 수정
- WebAssembly 기반 Shell의 파일 스토리지 기능 추가로 Browser 내 Workbench 환경 구축
Impact
- Ubuntu 26.04 beta 환경에서 TPC-H QphH@Score 기준 778,041에서 854,676로 약 10% 성능 향상
실천 포인트
- Lakehouse 아키텍처 설계 시 Puffin 파일과 같은 표준 포맷 기반의 Deletion Buffer 도입 검토 - Primary Key 충돌 해결 로직의 정합성 검증을 위한 Jepsen과 같은 분산 시스템 테스트 도구 활용 - WASM 기반 클라이언트 환경에서 Local File System과 연동하는 데이터 워크벤치 인터페이스 구현