피드로 돌아가기
New SurrealDB docs search using hybrid search and HNSW/BM25 reranking
Dev.toDev.to
Database

RRF 기반 Hybrid Search 도입으로 문서 검색 정확도 극대화

New SurrealDB docs search using hybrid search and HNSW/BM25 reranking

Mark Gyles2026년 5월 1일14intermediate

Context

단순 Text Search의 키워드 매칭 한계와 Vector Search의 시맨틱 분석 강점을 동시에 확보해야 하는 요구사항 발생. 개별 검색 모델 사용 시 발생하는 낮은 재현율과 정밀도 사이의 트레이드오프 해결이 필요함.

Technical Solution

  • BM25 기반 Full-text Search와 OpenAI Embedding 기반 Vector Search를 결합한 Hybrid Search 구조 설계
  • Tokenizer 및 Filter(Snowball english)를 정의한 Custom Analyzer 구축을 통한 텍스트 정규화 및 검색 정확도 향상
  • 서로 다른 점수 체계를 가진 두 검색 결과의 랭킹을 통합하기 위해 Reciprocal Rank Fusion(RRF) 알고리즘 적용
  • search::rrf() 함수를 통한 4개 랭킹 리스트(Page/Section x FT/VS)의 단일 랭킹 퓨전 처리
  • Smoothing Constant k=60 및 Max Candidates 80 설정을 통한 결과값 최적화

- 키워드 일치와 의미적 유사성을 모두 잡아야 하는 검색 시스템 설계 시 RRF 알고리즘 검토 - 검색 대상의 계층 구조(Page, Section)별로 검색 리스트를 분리한 후 통합 퓨전하는 전략 적용 - 언어별 특성에 맞는 Analyzer(Tokenizer, Filter) 설정을 통한 데이터 전처리 단계 최적화

원문 읽기