피드로 돌아가기
Dev.toAI/ML
원문 읽기
BM25와 Vector Search 하이브리드 설계를 통한 도메인 위키 검색 최적화
Beyond Keyword Search: How Synthadoc v0.2.0 Combines BM25 and Vector Search to Build a Smarter Domain Wiki
AI 요약
Context
단순 키워드 기반 검색의 어휘 불일치 문제와 Vector Search의 높은 리소스 소모 및 정밀도 저하 문제를 동시에 해결해야 하는 상황. 일반적인 RAG 파이프라인의 일회성 청크 검색 한계를 극복하고 지속 가능한 지식 베이스 구축 필요성 증대.
Technical Solution
- BM25를 1차 필터로 사용하여 마이크로초 단위의 빠른 속도로 정확한 키워드 매칭 수행
- 1차 필터링된 결과물을 대상으로 Vector Re-ranking을 수행하여 시맨틱 유사도 기반의 정밀도 보완
- LLM을 활용한 Query Decomposition 공정을 통해 복합 질문을 하위 질문으로 분해하고 병렬 검색 수행
- Ingest 단계에서 사실 추출 및 합성 과정을 거쳐 정적 청크가 아닌 구조화된 위키 형태로 지식 저장
- Multi-agent 시스템의 공유 메모리 역할을 위해 상태 관리 없는 병렬 HTTP 쿼리 구조 채택
- bge-small-en-v1.5 모델 도입으로 약 130MB 수준의 경량 인프라 환경에서 Vector Search 구현
실천 포인트
- 정확한 고유 명사 매칭이 중요한 도메인에서는 Vector Search 단독 사용보다 BM25 하이브리드 구성 검토 - 검색 성능 최적화를 위해 'BM25(광범위 필터링) -> Vector(정밀 재순위화)' 순의 계층적 파이프라인 설계 적용 - 복잡한 사용자 쿼리 처리를 위해 검색 전 단계에서 LLM을 통한 쿼리 분해(Query Decomposition) 로직 도입 고려