Multi-hop QA 정확도 79% 향상, Agentic RAG의 도입 성과

Letting AI Control RAG Search Improved Accuracy by 79%

plasmon2026년 4월 6일10분advanced

AI 요약

Context

고정된 Pipeline 구조의 RAG는 Multi-hop 질문 대응에 취약한 설계. 질문별로 필요한 정보의 양과 검색 전략이 다름에도 일괄적인 Top-K Retrieval 방식을 적용하는 한계. 검색 전략의 경직성으로 인해 불필요한 Token 낭비와 낮은 답변 정확도 발생.

Technical Solution

고정된 검색 흐름을 AI Agent의 의사결정 기반 구조로 대체하는 A-RAG 아키텍처 도입
고유 명사 및 정확한 용어 매칭을 위한 keyword_search 인터페이스 제공
개념적 유사성 및 패러프레이징 처리를 위한 semantic_search 도구 활용
특정 문서의 세부 문맥 파악을 위한 chunk_read 기반의 딥 리딩 전략 적용
Agent가 질문 성격에 따라 검색 도구 선택, 반복 횟수, 중단 시점을 자율적으로 결정하는 루프 설계
Multi-hop 질문 발생 시 '정보 식별 -> 연쇄 검색 -> 상세 분석' 순의 동적 추론 과정 수행

Impact

2WikiMultiHopQA 벤치마크 기준 정확도 50.2%에서 89.7%로 79% 향상 (GPT-5-mini)
GPT-4o-mini 모델 적용 시 2WikiMultiHopQA 정확도 41% 개선
검색된 Token 양 50% 절감
MuSiQue 벤치마크에서 모델별로 19%~40%의 성능 향상 기록

Key Takeaway

검색 전략의 동적 제어권이 LLM의 추론 능력과 결합될 때 복잡한 연쇄 질문 해결 능력이 극대화됨. Agentic RAG의 효용성은 기반 모델의 지능 수준에 비례하여 확장되는 특성을 가짐.

실천 포인트

서비스 내 Multi-hop 질문 비율이 30%를 초과하는 경우 고정 Pipeline에서 Agentic RAG로의 전환 검토 필요

태그

#Multi-hop QA #A-RAG #RAG #LLM #Agentic Workflow

원문 읽기