LongMemEval 116개 문항 분석 결과, Vector 검색 대비 Grep의 높은 정확도 및 노이즈 내성 확인

Is Grep All You Need? Grep vs Vector Retrieval for Agentic Search

pueding2026년 5월 21일8분intermediate

AI 요약

Context

기존 Agentic Search는 Vector Retrieval을 기본 설계로 채택하여 Embedding 및 ANN Index 인프라 비용을 지불함. 하지만 단순한 Semantic Match가 실제 성능 향상으로 이어지는지에 대한 검증이 부족했으며, 특히 무관한 컨텍스트(Noise) 증가 시 검색 품질이 저하되는 한계점이 존재함.

Technical Solution

Literal Substring Matching 기반의 Grep 도구를 Agent Harness에 통합하여 Vector 검색과 성능 대조 분석
Local Match 방식을 통한 Distributional Drift 원천 차단으로 Irrelevant Context 주입 시에도 일관된 검색 결과 유지
Agent Harness(Tool-calling style, Stop condition 등)를 변수로 설정하여 검색 알고리즘보다 상위 제어 로직의 영향력 검증
Multi-hop Search 및 세부 정보 추출이 필요한 LongMemEval 벤치마크를 통한 Iterative Retrieval 루프 성능 측정
쿼리의 성격(Literal Token 중심 vs Topical/Paraphrased)에 따른 검색 도구의 선택적 활용 구조 설계

실천 포인트

1. 소중규모 데이터셋에서 정확한 키워드 매칭이 중요하다면 Vector Store 도입 전 Grep 기반 검색 우선 검토

2. RAG 성능 개선 시 Embedding 모델 교체보다 Agent의 Tool-calling 루프 및 Stop condition 최적화 우선 수행

3. 입력 데이터에 Noise가 많은 환경이라면 Semantic Search의 거리 기반 랭킹보다 Literal Matching의 안정성 고려

태그

#Agentic Search #Vector Retrieval #RAG #LongMemEval #Grep

원문 읽기