피드로 돌아가기
Dev.toAI/ML
원문 읽기
Gemma 4 26B 기반 Unanswerable Accuracy 100% 달성한 Grounded QA 하네스 설계
SCMRLH 003: A Gemma 4 Harness for Grounded QA and Safe Abstention
AI 요약
Context
Local LLM 시스템에서 발생하는 Hallucination 문제와 무분별한 응답 생성의 위험성 식별. 근거 기반 답변 생성과 안전한 답변 거절(Abstention)을 명확히 구분하는 평가 체계의 부재를 해결하고자 함.
Technical Solution
- Relevant Evidence Retrieval을 통한 컨텍스트 최적화 및 모델 입력 윈도우의 Compact화 구현
- Shortest Exact Answer Span 추출 또는 ABSTAIN 선택을 강제하는 제약 기반 워크플로우 설계
- Unsupported Answer를 필터링하는 Guardrails 레이어 배치를 통한 답변 신뢰성 강화
- Answerable/Unanswerable Accuracy 및 Abstain Rate를 동시에 측정하는 다차원 평가 지표 도입
- Local Deployment 효율성과 추론 안정성을 고려하여 Ollama 기반 Gemma 4 26B 모델 채택
Impact
- Main Benchmark(200 examples): Overall Accuracy 0.850, Unanswerable Accuracy 1.000, Abstain Rate 0.570 기록
- Deep Benchmark(1000 examples): Overall Accuracy 0.827, Unanswerable Accuracy 1.000, Abstain Rate 0.576 기록
실천 포인트
1. RAG 파이프라인 설계 시 '답변 불가' 상태를 명시적으로 정의하고 모델이 ABSTAIN을 선택할 수 있는 옵션을 부여했는지 확인
2. 단순 정확도 외에 Unanswerable Accuracy 지표를 도입하여 모델의 Hallucination 경향성을 정량적으로 측정
3. 모델 입력 단계에서 Compact Evidence Window를 구성하여 노이즈를 제거하고 추론 집중도를 향상