Gemma 4 26B 기반 Unanswerable Accuracy 100% 달성한 Grounded QA 하네스 설계

SCMRLH 003: A Gemma 4 Harness for Grounded QA and Safe Abstention

Jun Zhu2026년 5월 24일3분intermediate

AI 요약

Context

Local LLM 시스템에서 발생하는 Hallucination 문제와 무분별한 응답 생성의 위험성 식별. 근거 기반 답변 생성과 안전한 답변 거절(Abstention)을 명확히 구분하는 평가 체계의 부재를 해결하고자 함.

Main Benchmark(200 examples): Overall Accuracy 0.850, Unanswerable Accuracy 1.000, Abstain Rate 0.570 기록
Deep Benchmark(1000 examples): Overall Accuracy 0.827, Unanswerable Accuracy 1.000, Abstain Rate 0.576 기록

실천 포인트

1. RAG 파이프라인 설계 시 '답변 불가' 상태를 명시적으로 정의하고 모델이 ABSTAIN을 선택할 수 있는 옵션을 부여했는지 확인

2. 단순 정확도 외에 Unanswerable Accuracy 지표를 도입하여 모델의 Hallucination 경향성을 정량적으로 측정

3. 모델 입력 단계에서 Compact Evidence Window를 구성하여 노이즈를 제거하고 추론 집중도를 향상

태그