피드로 돌아가기
Dev.toAI/ML
원문 읽기
Bi-encoder와 Cross-encoder 조합을 통한 RAG 검색 정밀도 최적화
Reranking: Retrieve Fast, Then Reorder Precisely (Better RAG)
AI 요약
Context
Bi-encoder 기반의 Vector Search는 대규모 코퍼스에서 빠른 검색 속도를 제공하나, Query와 Document의 상호작용을 고려하지 않는 특성으로 인해 낮은 정밀도의 Ranking 결과 도출
Technical Solution
- Bi-encoder를 활용한 Wide Retrieval 단계에서 상위 50개의 Candidate Docs를 빠르게 추출하는 구조 설계
- 추출된 소수 샘플에 대해 Query와 Document를 동시에 입력하는 Cross-encoder 기반의 Reranking 수행
- 상호 참조가 가능한 Cross-encoder의 높은 연산 비용을 Narrow Scope로 제한하여 전체 Latency 최적화
- 정밀하게 재정렬된 결과 중 상위 5개 문서만 LLM에 전달하여 생성 답변의 정확도 향상
- Retrieve K(50)와 Keep N(5) 수치 조절을 통한 Recall과 Speed 사이의 Trade-off 제어
실천 포인트
1. 검색 대상이 수백만 건 이상일 때 Bi-encoder 기반의 1차 필터링 적용 여부 검토
2. LLM 입력 컨텍스트의 노이즈 제거를 위해 상위 N개 문서만 남기는 Reranking 파이프라인 도입
3. 서비스 허용 Latency 범위 내에서 Retrieve K 값의 최적 임계점 테스트