Hugging Face가 Math-Verify 파서를 도입해 Open LLM Leaderboard의 수학 평가 로직 3줄 변경으로 전체 3,751개 모델 재평가 후 평균 4.66점 점수 상향

Fixing Open LLM Leaderboard with Math-Verify

2025년 2월 14일9분intermediate

AI 요약

Context

Open LLM Leaderboard의 MATH-Hard 평가 시스템은 답변 형식 파싱 실패, SymPy 기호 표현 변환 오류, 표현식 비교 불일치 등 3단계에서 누적 오류가 발생하여 모델 성능을 심각하게 과소평가했다. 예를 들어 Qwen 모델들은 실제 성능 대비 점수가 극도로 낮았고, DeepSeek 모델들은 \boxed{} 표기법을 처리할 수 없어 정확한 평가가 불가능했다.

Technical Solution

답변 추출 단계: 모델이 특정 형식("Final answer is [ANSWER]. I hope it is correct.")을 따르지 않은 경우를 Math-Verify가 자동으로 정규식과 LaTeX 경계 감지로 처리
기호 표현 변환: SymPy 파싱 실패 시 매트릭스, 집합, 구간 표기 등을 별도 로직으로 처리하여 부분 파싱 문제 해결
표현식 비교 강화: 1/3 == 0.333333, sqrt(1/2)*7 == sqrt(0.5)*7, 행렬 동등성, 집합 비교 등 다양한 수학적 표현을 수치 평가와 변수 할당을 통해 정규화 후 비교
기존 평가기 제거: 이전 SymPy 기반 평가 로직을 완전히 교체하되 통합 코드 변경은 단 3줄
전수 재평가: June 이후 제출된 3,751개 모델 전체에 대해 Math-Verify 적용

Impact

모든 모델 평균 61개 문제 추가 해결, 전체 점수 평균 4.66점 상향
Algebra 관련 소항목에서 8.27점(대수), 6.93점(기초 대수) 개별 상향, 극단적 경우 90점 근처 상향
Qwen 모델 점수 2배 이상 상향
DeepSeek 모델 점수 거의 3배 상향
MATH-Hard 상위 20 순위 대대적 재편성: Nvidia AceMath 모델 1위 독점, Qwen 파생 모델 대거 진입
전체 Leaderboard 상위 20 중 상당수 모델이 200위 이상 상승

Key Takeaway

평가 시스템의 파서 정확도는 벤치마크 순위의 신뢰성을 결정하는 핵심 요소이며, 수학 문제 평가처럼 다양한 표현 형식(기호, 수치, 집합, 행렬)을 다루는 경우 형식 정규화와 표현식 동등성 검증 계층을 분리 설계해야 한다.

실천 포인트

수학 문제 평가 시스템을 구축하는 팀은 단순 정규식 기반 추출 대신 SymPy + 커스텀 파싱 계층 조합으로 LaTeX, 기호 표기, 수치 근사를 모두 처리하면, 모델 점수 왜곡을 4~90점 범위에서 방지할 수 있다.

태그

#Math-Verify #Benchmarking #LLM Evaluation

원문 읽기