Bi-encoder와 Cross-encoder 조합을 통한 RAG 검색 정밀도 최적화

Reranking: Retrieve Fast, Then Reorder Precisely (Better RAG)

Devanshu Biswas2026년 6월 23일1분intermediate

AI 요약

Context

Bi-encoder 기반의 Vector Search는 대규모 코퍼스에서 빠른 검색 속도를 제공하나, Query와 Document의 상호작용을 고려하지 않는 특성으로 인해 낮은 정밀도의 Ranking 결과 도출

실천 포인트

1. 검색 대상이 수백만 건 이상일 때 Bi-encoder 기반의 1차 필터링 적용 여부 검토

2. LLM 입력 컨텍스트의 노이즈 제거를 위해 상위 N개 문서만 남기는 Reranking 파이프라인 도입

3. 서비스 허용 Latency 범위 내에서 Retrieve K 값의 최적 임계점 테스트

태그