Hugging Face Open LLM Leaderboard 팀이 MMLU 벤치마크의 3가지 서로 다른 구현(EleutherAI Harness, Original UC Berkeley, Stanford HELM)을 비교하여 동일한 데이터셋으로도 결과와 모델 순위가 크게 달라지는 문제 발견 및 해결

What's going on with the Open LLM Leaderboard?

2023년 6월 23일12분intermediate

AI 요약

Context

Open LLM Leaderboard에서 LLaMA 모델의 MMLU 평가 점수가 논문에 보고된 수치보다 현저히 낮았다. 커뮤니티는 이 불일치의 원인을 파악하고자 했으며, 동일한 벤치마크가 구현에 따라 얼마나 다른 결과를 낼 수 있는지 조사할 필요가 있었다.

Technical Solution

EleutherAI LM Evaluation Harness, 원본 UC Berkeley MMLU 구현, Stanford HELM 벤치마크 3가지 MMLU 평가 코드베이스를 동일한 모델 세트에 대해 실행하고 결과 비교
각 구현의 프롬프트(prompt) 형식, 토크나이제이션(tokenization), 로그 확률(log-likelihood) 계산 방식 등 세부 구현 차이 분석
모델 평가 시 다중 선택 문제에 대해 모델의 토큰 확률 분포를 해석하는 방식(확률 기반 vs 생성 기반)의 차이 문서화
EleutherAI Harness 커뮤니티에 MMLU 평가 업데이트 의뢰하여 원본 구현과 일치하도록 수정
Open LLM Leaderboard를 EleutherAI Eval Harness v2로 업그레이드하여 향후 모든 모델 평가 점수 갱신 예정

Impact

3가지 MMLU 구현으로부터 얻은 평가 점수가 동일 모델에서 크게 다르게 나타났으며, 모델 간 순위 순서도 변경되는 결과 발생.

Key Takeaway

벤치마크 점수는 구현 세부사항(프롬프트, 토크나이제이션, 확률 계산 방식)에 강하게 의존하므로, "MMLU 결과" 단순 수치만으로는 다른 라이브러리 간 비교가 불가능하다. EleutherAI Harness나 Stanford HELM 같은 공개·표준화·재현 가능한 벤치마크가 필수적이며, 이를 통해서만 논문 간·모델 간 신뢰할 수 있는 비교가 가능하다.

실천 포인트

LLM 모델 평가를 수행하는 연구팀 또는 기업에서 벤치마크 결과를 보고할 때, 사용한 구현의 정확한 프롬프트 형식, 토크나이제이션 방식, 로그 확률 계산 방식을 명시해야 한다. 이를 통해 다른 팀의 결과와 정확히 비교 가능하며, 공개된 표준화 벤치마크 라이브러리(EleutherAI Harness, HELM)를 사용하면 구현 차이로 인한 편차를 최소화할 수 있다.

태그

#Reproducibility #Benchmark #LLM #MMLU #Evaluation

원문 읽기