Hugging Face가 GUI 에이전트 평가 벤치마크 13개를 통합한 ScreenSuite를 오픈소스로 공개해 VLM 성능 비교 및 재현성 문제 해결

ScreenSuite - The most comprehensive evaluation suite for GUI Agents!

2025년 6월 6일7분intermediate

AI 요약

Context

GUI 에이전트 평가를 위한 벤치마크가 여러 곳에 분산되어 있고, 접근성 트리나 DOM 메타데이터를 섞어 사용해 실제 비전 전용 설정과의 성능 차이가 발생하며, 멀티스텝 에이전트 평가를 위해서는 가상머신 환경 구성이 복잡했다.

Technical Solution

13개 벤치마크를 단일 ScreenSuite로 통합: 지각(Perception), 그라운딩(Grounding), 단계별 액션(Single step actions), 멀티스텝 에이전트 4가지 GUI 에이전트 역량 범주에 걸친 평가 지표 통합
비전 전용 평가 스택 구현: 모든 평가에서 접근성 트리, DOM, 메타데이터 제거 후 시각 입력만 사용하도록 표준화
Docker 기반 가상머신 환경 자체 개발: E2B 샌드박스 지원 외에 Ubuntu Desktop과 Android 에뮬레이터를 Docker 컨테이너로 배포 가능하도록 구성
smolagents 프레임워크 레이어 도입: 에이전트 실행 및 오케스트레이션 간소화
모듈식 벤치마크 설계: 작업 및 환경 간 일관성을 유지하면서 개별 벤치마크 실행 가능하도록 구조화

Impact

30초 내 커스텀 평가 시작 가능(git clone → uv sync → python run.py 3단계), Qwen2.5-VL(3B~72B), UI-Tars-1.5-7B, Holo1-7B, GPT-4o 등 주요 VLM 성능 순위 평가 제공

Key Takeaway

GUI 에이전트 평가는 접근성 메타데이터 제거로 난이도를 높이고 재현 가능성을 확보해야 하며, Docker 컨테이너 기반 가상환경 지원으로 연구자들이 로컬에서 즉시 멀티스텝 에이전트를 검증할 수 있는 인프라 설계가 커뮤니티 반복 개선을 가속화한다.

실천 포인트

VLM 기반 자동화 도구를 개발하는 엔지니어는 ScreenSuite의 비전 전용 평가 방식(접근성 트리 제외)을 벤치마크 선택 기준으로 삼아 실제 환경에서의 모델 성능을 정확히 예측할 수 있으며, Docker를 통한 Ubuntu/Android 에뮬레이터 배포 패턴을 차용해 로컬 환경에서 멀티스텝 에이전트 테스트 파이프라인을 30초 내에 구성할 수 있다.

태그

#GUI Agent #Vision-only #VLM #Benchmark #Evaluation

원문 읽기