Edinburgh 대학 연구팀이 EleutherAI Language Model Evaluation Harness를 기반으로 LLM의 환각(hallucination) 문제를 측정하는 오픈 리더보드 플랫폼 구축

The Hallucinations Leaderboard, an Open Effort to Measure Hallucinations in Large Language Models

2024년 1월 29일9분intermediate

AI 요약

Context

기존에는 LLM의 환각 현상(factuality 및 faithfulness 오류)을 측정할 수 있는 통합된 평가 플랫폼이 없었으며, 새로운 오픈소스 모델들이 계속 출시되면서 신뢰할 수 있는 모델을 식별하기 어려웠다.

Technical Solution

EleutherAI Language Model Evaluation Harness를 기반으로 한 평가 프레임워크 채택: zero-shot 및 few-shot(in-context learning)을 통한 LLM 평가 지원
9개 카테고리에 걸친 13개 벤치마크 데이터셋 통합: NQ Open, TriviaQA, TruthfulQA(QA), XSum, CNN/DM(요약), RACE, SQuADv2(독해), MemoTrap, IFEval(명령 준수), FEVER(팩트체킹), FaithDial, True-False, HaluEval, SelfCheckGPT
모든 메트릭을 [0, 1] 정규화 범위로 표준화: 비교 가능한 점수 체계 구현
Hugging Face Leaderboard Template 기반의 오픈소스 백엔드/프론트엔드 포크: 커뮤니티 접근성 확보
NVIDIA A100-40GB 및 A100-80GB GPU 기반 인프라 운영: Edinburgh International Data Facility와 University of Edinburgh 클러스터에서 실행

Key Takeaway

환각 측정 문제를 해결하기 위해 다양한 데이터셋을 하나의 정규화된 프레임워크로 통합한 오픈 리더보드 방식은 LLM 신뢰성 평가의 투명성을 높이고 모델 선택 의사결정을 지원하는 커뮤니티-중심 벤치마킹 전략을 보여준다.

실천 포인트

LLM 기반 서비스를 개발하는 엔지니어는 모델 선택 단계에서 Hallucinations Leaderboard의 TruthfulQA, TriviaQA, CNN/DM, FEVER 등 실제 사용 사례와 유사한 벤치마크의 점수를 비교하면, 팩트 정확성과 지시 준수 성능 간의 트레이드오프를 정량적으로 평가하여 프로덕션 환경에 적합한 모델을 선정할 수 있다.

태그

#Hallucination Detection #Benchmarking #LLM #Model Evaluation

원문 읽기