Hugging Face가 분산형 평가 결과 보고 시스템을 구축해 벤치마크 점수의 단일 진실 공급원 부재 문제 해결

Community Evals: Because we're done trusting black-box leaderboards over the community

2026년 2월 4일6분intermediate

AI 요약

Context

벤치마크 포화(MMLU 91% 이상, GSM8K 94%+, HumanEval 정복)에도 불구하고 실제 성능 격차가 존재한다. 동시에 모델 카드, 논문, 평가 플랫폼 등 다양한 소스에서 서로 다른 벤치마크 점수가 보고되어 신뢰할 수 있는 단일 점수 출처가 없는 상황이다.

Technical Solution

벤치마크 데이터셋 레포지토리가 벤치마크로 등록되면 eval.yaml을 통해 Inspect AI 형식 기반 평가 스펙을 정의하여 누구나 재현 가능하게 설정
모델 레포지토리 내 .eval_results/*.yaml에 평가 점수를 저장하고 모델 카드에 자동 표시되며 벤치마크 데이터셋으로 수집
모든 사용자가 PR을 통해 임의의 모델에 대한 평가 결과를 제출할 수 있고, 결과가 "커뮤니티" 레이블로 즉시 표시됨(모델 작성자 승인 대기 없음)
커뮤니티는 논문, 모델 카드, 제3자 평가 플랫폼 또는 inspect 평가 로그로 점수 출처를 링크하여 검증 가능하게 제공
Git 기반 Hub의 버전 관리를 통해 평가 추가, 변경 시각 등 전체 히스토리 추적 가능하게 구현

Key Takeaway

분산형 평가 결과 공개는 기존 커뮤니티 소스의 점수를 노출함으로써 누적, 추적, 이해를 가능하게 하며, 재현 가능한 평가 스펙 기반의 오픈 결과로 "누가 언제 어떻게 평가했는지"를 투명하게 만든다는 설계 원칙을 보여준다.

실천 포인트

모델 평가 결과를 공개해야 하는 조직에서 eval.yaml과 .eval_results/*.yaml 파일 구조를 채택하면, Hub API를 통해 결과를 자동 수집하고 재현 가능성을 검증받으며 커뮤니티 기여를 수용할 수 있다.

태그

#Benchmarking #Reproducibility #Community Evaluation #Model Transparency

원문 읽기