#reasoning-assessment 아티클 모음

Hugging Face Blog

Michigan 대학과 Rutgers 대학이 자동 생성 및 월간 업데이트 벤치마크로 LLM의 추론 능력을 NP-Hard 복잡도 클래스 기준으로 측정하는 NPHardEval 리더보드 공개

NPHardEval Leaderboard: Unveiling the Reasoning Abilities of Large Language Models through Complexity Classes and Dynamic Updates

AI/MLintermediate14 분 소요2024년 2월 2일