Hugging Face BlogAtla가 LLM을 평가자로 사용하는 모델들을 벤치마크하는 Judge Arena 플랫폼을 출시해 18개 최신 LLM의 평가 능력을 크라우드소싱 투표로 비교Judge Arena: Benchmarking LLMs as EvaluatorsAI/MLintermediate10 분 소요2024년 11월 19일
Hugging Face BlogArtificial Analysis가 45,000건의 인간 선호도 데이터와 ELO 스코어링으로 Text-to-Image 모델 랭킹 시스템 구축Launching the Artificial Analysis Text to Image Leaderboard & ArenaAI/MLintermediate9 분 소요2024년 6월 6일