피드로 돌아가기
Dev.toAI/ML
원문 읽기
외부 Registry 기반 3단계 필터링을 통한 LLM Hallucination 원천 차단
Stop Asking the LLM Whether Its Source Is Real
AI 요약
Context
LLM의 확률적 텍스트 생성 특성으로 인해 실제 존재하지 않는 DOI 및 출처를 생성하는 Hallucination 발생. Generation Layer의 자체 검증 기능 부재로 인해 모델에게 재확인하는 방식은 무의미하며, 이는 RAG 아키텍처 전반의 신뢰성 결여로 이어짐.
Technical Solution
- Generation Layer와 Verification Layer를 완전히 분리한 외부 진실원(External Truth) 기반 검증 구조 설계
- Crossref 및 arXiv API를 활용한 DOI Resolve 단계의 Binary Filter 적용으로 존재하지 않는 참조 즉시 제거
- 저널 및 컨퍼런스의 공신력을 검증하는 Credibility Filter를 통해 유효하나 가치 없는 Predatory Journal 필터링
- 실제 내용과 인용문의 일치 여부를 판별하는 Fidelity Filter를 최종 단계에 배치하여 정보의 왜곡 방지
- RAG 시스템 내 모든 외부 참조(Ticket, CVE, Commit 등)를 Authoritative System과 대조하는 Resolver 로직 통합
실천 포인트
1. LLM에게 생성 내용의 진위 여부를 묻는 Self-Verification 로직 제거
2. 인용 데이터(DOI, Ticket ID 등) 발생 시 즉시 외부 API를 통한 Resolve 단계 추가
3. [존재 확인 -> 신뢰도 검증 -> 내용 일치 확인] 순의 다단계 필터링 파이프라인 구현
4. RAG 아키텍처 설계 시 Generation과 Verification을 분리된 컴포넌트로 구성