피드로 돌아가기
Kreuzberg & SurrealDB: from unstructured documents to hybrid retrieval
Dev.toDev.to
Database

Kreuzberg-SurrealDB 통합을 통한 Hybrid Retrieval 파이프라인 단일화

Kreuzberg & SurrealDB: from unstructured documents to hybrid retrieval

Mark Gyles2026년 5월 12일1intermediate

Context

문서 추출, Chunking, Embedding, 저장 단계를 개별 도구로 구성함에 따른 복잡한 파이프라인 관리 문제 발생. 다수의 도구 조합으로 인해 Schema 중복 정의 및 Ingestion 효율성 저하라는 구조적 한계 존재.

Technical Solution

  • 88종 이상의 다양한 문서 포맷 처리를 위한 Kreuzberg 프레임워크 기반 데이터 추출 구조 채택
  • SHA-256 Hashing 기법 적용을 통한 데이터 중복 제거 및 Ingestion 효율성 확보
  • BM25 기반의 Keyword Search를 제공하는 DocumentConnector 설계
  • HNSW Vector Index와 Reciprocal Rank Fusion을 활용한 DocumentPipeline 기반 Semantic 및 Hybrid Search 구현
  • Multi-model Database 특성을 활용하여 Document, Graph, Vector, Full-text search를 단일 시스템으로 통합
  • Schema Boilerplate 제거를 위한 자동화된 Schema Setup 로직 구현

1. Hybrid Search 구현 시 BM25와 Vector Search의 가중치를 조정하는 Reciprocal Rank Fusion 검토

2. Ingestion 단계에서 SHA-256 기반 중복 체크를 통해 스토리지 낭비 및 인덱싱 비용 최적화

3. RAG 파이프라인 구축 시 개별 컴포넌트 조합보다 통합 커넥터를 통한 데이터 흐름 단순화 고려

원문 읽기