피드로 돌아가기
Why production RAG fails — and the boring metrics that fix it
Dev.toDev.to
AI/ML

RAG recall@5 개선 및 Lost-in-the-Middle 해결을 위한 Reranker 기반 최적화 전략

Why production RAG fails — and the boring metrics that fix it

saurabh naik2026년 5월 18일7intermediate

Context

단순 Vector Search 기반의 Top-k retrieval 구조로 인해 Retriever의 검색 실패와 Generator의 할루시네이션을 구분하지 못하는 한계 발생. Long Context 도입 시 비용과 Latency가 증가함에도 모델이 컨텍스트 중간 정보를 유실하는 Lost-in-the-Middle 현상으로 인해 근본적 해결책이 되지 못함.

Technical Solution

  • BM25와 Dense Retrieval을 결합한 Hybrid Search로 초기 후보군 정밀도 확보
  • Cross-encoder Reranker를 통해 Top-20 후보군을 정밀 재점수화하여 최적의 Top-5 추출
  • 10-20%의 Chunk Overlap 및 계층적 Chunking 설계를 통한 의미적 단절 문제 해결
  • Content Hash 기반 중복 제거와 Index Versioning으로 Retrieval Noise 최소화
  • RAGAS 프레임워크를 통한 Faithfulness와 Answer Relevance의 분리 측정 및 디버깅 지점 식별
  • System Prompt 강화를 통한 Context-faithfulness Gap 해소 및 Generator 제어

1. Ground-truth Chunk ID가 포함된 50-100개 규모의 합성 평가 셋 구축

2. BM25 + Dense Hybrid Retrieval 구성으로 기본 Precision 확보

3. Cross-encoder Reranker를 도입하여 Top-k 크기를 줄이고 Lost-in-the-Middle 방지

4. RAGAS를 통해 Faithfulness(Generator 문제)와 Recall(Retriever 문제)을 분리 측정

원문 읽기