Artificial Analysis가 Big Bench Audio 데이터셋을 구축해 음성 추론 모델의 성능 평가 기준을 마련했으며, GPT-4o의 텍스트 대비 음성 입출력에서 26%포인트 정확도 저하 발견
Evaluating Audio Reasoning with Big Bench Audio
Evaluating Audio Reasoning with Big Bench Audio
Deploying Speech-to-Speech on Hugging Face