Hugging Face BlogHugging Face가 GUI 에이전트 평가 벤치마크 13개를 통합한 ScreenSuite를 오픈소스로 공개해 VLM 성능 비교 및 재현성 문제 해결ScreenSuite - The most comprehensive evaluation suite for GUI Agents!AI/MLintermediate12 분 소요2025년 6월 6일