피드로 돌아가기
Dev.toAI/ML
원문 읽기
Search-Enabled LLM의 Numeric Fact retrieval 정확도 분석 및 Grounding 한계 규명
Why Search-Enabled LLMs Still Get Numbers Wrong
AI 요약
Context
LLM의 내장 지식 기반 답변 생성 시 발생하는 환각 현상을 해결하기 위해 Web Search 기능을 도입한 구조 분석. 단순히 검색 결과 페이지를 찾는 것과 정확한 수치 데이터를 추출하여 해석하는 능력 사이의 간극으로 인한 정확도 저하 문제 발생.
Technical Solution
- Internal Knowledge 기반 답변과 Web Search, Agentic Retrieval의 세 가지 접근 방식 대조 분석
- 15개 국가 및 20개 지표 기반의 총 300개 질문 세트를 통한 정량적 Benchmark 설계
- 검색 결과 내 연도 불일치 및 정의 차이로 인한 Wrong Year/Definition 추출 가능성 식별
- 단순 링크 제공이 아닌 증거 기반의 Interpret 및 Justify 프로세스 필요성 도출
- Reproducible Data Merging과 Failure Taxonomy를 통한 검색 오류의 체계적 분류 체계 구축
Impact
- GPT-4o: Search 도입 전 31.67%에서 도입 후 44.00%로 정확도 향상
- Gemini: Search 도입 전 35.00%에서 도입 후 44.67%로 정확도 향상
- Qwen: Search 도입 전 19.67%에서 도입 후 36.33%로 정확도 향상
- Claude: Search 도입 시 오히려 성능이 저하되는 역전 현상 확인
Key Takeaway
Retrieval 기능의 추가가 반드시 신뢰성 향상으로 이어지지 않으며, 검색된 데이터의 문맥적 해석과 정합성 검증 단계가 포함된 Agentic Workflow 설계가 필수적임.
실천 포인트
1. RAG 도입 시 단순 Retrieval 성공률이 아닌 Grounding Accuracy 측정 지표 설정
2. 수치 데이터 추출 시 Source의 기준 연도와 정의(Definition) 일치 여부 검증 로직 추가
3. Citation 제공 여부와 실제 정답 간의 논리적 일치성을 확인하는 Citation Check 프로세스 구현
4. 모델별 Search-enabled 성능 편차를 고려한 최적의 LLM Selection 및 하이퍼파라미터 튜닝