Hugging Face가 분산형 평가 결과 보고 시스템을 구축해 벤치마크 점수의 단일 진실 공급원 부재 문제 해결
Community Evals: Because we're done trusting black-box leaderboards over the community
Community Evals: Because we're done trusting black-box leaderboards over the community
TTS Arena: Benchmarking Text-to-Speech Models in the Wild