Hugging Face BlogHugging Face가 Math-Verify 파서를 도입해 Open LLM Leaderboard의 수학 평가 로직 3줄 변경으로 전체 3,751개 모델 재평가 후 평균 4.66점 점수 상향Fixing Open LLM Leaderboard with Math-VerifyAI/MLintermediate15 분 소요2025년 2월 14일