피드로 돌아가기
Dev.toAI/ML
원문 읽기
Hallucination 40% 제거 및 Multi-hop 쿼리 대응을 통한 RAG 신뢰성 확보
Four production pitfalls that turn RAG demos into broken chatbots
AI 요약
Context
내부 데모의 제한적 쿼리 분포로 인해 실제 운영 환경의 Long-tail 쿼리 및 복잡한 질문 대응에 한계 발생. Vector Search의 특성상 관련 없는 Chunk까지 반환하여 발생하는 확신에 찬 Hallucination과 일률적인 Chunk Size 설정으로 인한 컨텍스트 손실이 주요 병목 지점임.
Technical Solution
- Similarity Floor(Cosine 0.7~0.75) 설정을 통한 무분별한 Vector 반환 차단 및 LLM-as-judge 기반 Faithfulness Gate 도입으로 생성 답변의 근거 검증
- 콘텐츠 타입별 Recursive/Hierarchical Chunking 전략을 적용하여 문서 구조(Heading, Section)에 따른 최적의 컨텍스트 보존
- Ragas와 Langfuse를 결합한 Observability Stack 구축으로 Recall@5 및 Faithfulness 지표의 주간 추적과 5% 이상 하락 시 Alert 트리거 설계
- Llama 3.1 8B 기반 Router를 최전방에 배치하여 Single-hop, Multi-hop, Structured Query를 분류하고 Query Decomposition 또는 SQL Agent로 분기 처리
- Graph RAG 도입을 통해 엔티티 간 관계 기반의 Multi-hop Traversal로 복잡한 관계형 질문의 정확도 향상
실천 포인트
- Vector Search 결과에 Similarity Threshold를 설정했는가? - 콘텐츠 성격에 맞는 Chunking 전략(Recursive, Hierarchical)을 개별 적용했는가? - Ragas 등을 활용해 Recall 및 Faithfulness를 정량적으로 추적하는 파이프라인이 있는가? - Multi-hop 질문 대응을 위한 Router 및 Query Decomposition 로직이 설계되었는가?