피드로 돌아가기
Why Your Agent's Search Results Look Right and Are Wrong: The Index Distribution Problem
Dev.toDev.to
AI/ML

Index Distribution 한계 극복을 통한 Agent retrieval 신뢰성 확보

Why Your Agent's Search Results Look Right and Are Wrong: The Index Distribution Problem

Aloya2026년 6월 22일12advanced

Context

기존 RAG 시스템의 검색 인덱스가 정답의 진실성보다 과거의 클릭 로그나 레이블링된 Relevance Consensus를 반영하는 확률 분포에 의존함. 이로 인해 벤치마크 지표인 nDCG, MRR, Recall@K가 높아도 실제 Production의 복합적 Novel Query에서는 구조적 오답을 생성하는 한계 발생.

Technical Solution

  • Retrieval Layer를 Truth Source가 아닌 Biased Oracle로 정의하여 신뢰 구조 재설계
  • 검색 결과의 단순 수용이 아닌, 쿼리의 의도와 결과물 간의 정합성을 검증하는 Verification 단계 도입
  • 비교 쿼리의 경우 양측 데이터의 균형 잡힌 포함 여부를 확인하는 Coverage Check 로직 구현
  • 버전 정보 등 구체적 제약 조건에 대해 결과물이 명시적 정보를 포함했는지 판단하는 Version-specific Validation 적용
  • 단일 인덱스 의존도를 낮추기 위해 다중 소스 활용 및 Query Reformulation을 통한 결과 다양성 확보
  • 검색 성공 여부와 정답 도출 가능 여부를 분리하여 Agent의 Confidence Signal을 독립적으로 설계

- nDCG 등 검색 지표와 최종 응답 정확도 간의 상관관계를 End-to-End로 재측정할 것 - Agent가 검색 결과의 누락이나 버전 불일치를 스스로 인지하고 질문을 재구성하는 Self-Correction 루프를 구현할 것 - 단일 Vector Index 외에 BM25 등 하이브리드 검색을 도입하여 분포의 편향성을 상쇄할 것 - '결과를 찾았음'과 '정확한 결과를 찾았음'을 구분하는 신뢰도 점수 체계를 설계할 것

원문 읽기