피드로 돌아가기
My RAG pipeline couldn't find the CEO — here's how I fixed it with hybrid retrieval
Dev.toDev.to
AI/ML

Hybrid Retrieval 도입으로 RAG 검색 정확도 100% 달성

My RAG pipeline couldn't find the CEO — here's how I fixed it with hybrid retrieval

Santanu Mohanta2026년 6월 3일6intermediate

Context

FAISS 기반의 Pure Vector Search 아키텍처에서 특정 키워드가 포함된 밀집 청크의 검색 순위 하락 문제 발생. 시맨틱 유사도에만 의존한 검색 방식이 희소한 키워드 매칭에 취약하여 CEO 및 직원 수와 같은 구체적 정보 추출에 실패한 상황.

Technical Solution

  • FAISS(Dense)와 BM25(Sparse) 검색을 병렬로 수행하는 Hybrid Retrieval 구조 설계
  • 서로 다른 스코어 체계를 가진 두 검색 결과의 순위를 통합하기 위해 Reciprocal Rank Fusion(RRF) 알고리즘 적용
  • RRF_K=60 상수를 활용하여 검색 순위의 역수 합으로 최종 랭킹을 결정하는 무중립적 점수 통합 방식 채택
  • 별도의 가중치 튜닝이나 점수 정규화 과정 없이 순위 정보만으로 최적의 청크를 선정하는 파이프라인 구축
  • LLM 교체가 아닌 Retrieval 단계의 정밀도 개선을 통해 근거 문서 제공 품질을 향상시킨 접근 방식

- 희소 키워드 매칭이 중요한 도메인에서 BM25와 Vector Search의 병렬 구조 검토 - 서로 다른 검색 엔진의 결과를 통합할 때 튜닝 비용이 적은 RRF 알고리즘 적용 고려 - Dense Chunk 내 정보 밀도가 너무 높을 경우 Chunking 전략 수정 또는 Cross-encoder 기반 Reranker 도입 검토

원문 읽기