피드로 돌아가기
Hacker NewsHacker News
Database

gRPC와 Arrow IPC 기반의 하이브리드 실행 구조를 통한 DuckDB 분산 아키텍처 구현

Distributed DuckDB Instance

2026년 4월 14일4advanced

Context

단일 노드 기반인 DuckDB의 한계를 극복하고 클라우드 환경으로 확장하기 위한 분산 처리 구조 필요성 증대. 기존의 단순 원격 쿼리 방식은 데이터 전송량 증가와 로컬 자원 활용 불가라는 병목 지점 존재.

Technical Solution

  • StorageExtension 및 Catalog 인터페이스 구현을 통한 원격 테이블의 DuckDB First-class 객체화
  • Gateway 기반의 Plan Splitting 로직을 통해 연산자를 LOCAL과 REMOTE로 구분하는 하이브리드 실행 구조 설계
  • 중간 결과물만 전송하는 Bridge Operator 도입을 통한 네트워크 트래픽 최적화
  • Immutable Sealed Layers 및 PostgreSQL 메타데이터를 결합한 Differential Storage 구조 채택
  • gRPC와 Arrow IPC Batch 스트리밍을 활용한 2개의 최소화된 RPC 프로토콜 정의로 백엔드 유연성 확보
  • Object Storage 기반의 스냅샷 모델을 통한 일관된 읽기(Consistent Read) 및 동시성 제어 구현

1. 분산 쿼리 설계 시 전체 데이터를 이동시키는 대신 연산자를 분할하여 중간 결과만 전송하는 Hybrid Execution 검토

2. 저장소 설계 시 수정 불가능한 Layer 기반의 Differential Storage를 통해 스냅샷 격리와 쓰기 성능 최적화 고려

3. 특정 벤더 종속성 제거를 위해 gRPC와 Arrow 같은 표준 데이터 포맷 기반의 최소 프로토콜 설계 적용

원문 읽기