피드로 돌아가기
Dev.toAI/ML
원문 읽기
Zero-shot 기법으로 AI Agent Hallucination 탐지율 65-93% 개선
Detect AI Agent Hallucinations: Zero-Shot Methods
AI 요약
Context
기존 Binary Pass/Fail 메트릭은 정답 여부만 판단하여 정교한 사실 왜곡을 식별하지 못하는 한계 존재. 특히 대화가 진행됨에 따라 발생하는 Safety Drift 현상을 최종 결과물만으로는 포착하기 어려운 구조적 결함 확인.
Technical Solution
- LSC(Linear Semantic Consistency) 도입을 통한 단일 Forward Pass 기반의 효율적 Batch 평가 체계 구축
- Claim Decomposition 방식을 적용하여 응답 내 개별 주장을 세분화하고 정밀한 검증 수행
- Strands Lifecycle Hooks를 활용하여 사용자 도달 전 실시간으로 Hallucination을 차단하는 Guardrail 계층 설계
- OutputEvaluator와 Faithfulness Rubric을 결합하여 Source Context 기반의 근거 유무를 수치화
- Trajectory-level Scoring 방식을 통해 대화 턴별 상태를 추적함으로써 누적되는 Safety Drift 실시간 감지
Impact
- Binary Metric 대비 Safety Issue 탐지율 65-93% 향상
- LSC 적용 시 84.6% AUROC 달성 및 낮은 Latency 확보
실천 포인트
1. 단순 성공/실패 지표 대신 Trajectory 기반의 단계별 스코어링 도입 검토
2. 실시간 서비스 적용 시 Latency-Accuracy Trade-off를 고려하여 LSC와 Claim Decomposition 중 선택
3. 도구 호출 결과(Tool Results)와 최종 응답 간의 Grounding 여부를 검증하는 Faithfulness Rubric 정의