Hugging Face가 SmolVLM2-2.2B 기반 GUI 에이전트를 2단계 SFT로 훈련해 제로 그라운딩 상태에서 GUI 자동화 능력 확보

Smol2Operator: Post-Training GUI Agents for Computer Use

2025년 9월 23일10분intermediate

AI 요약

Context

기존 GUI 자동화 모델들은 다양한 데이터셋에서 일관성 없는 액션 포맷(함수 서명, 파라미터 명명 규칙, 액션 분류)을 사용했으므로 통합된 모델 훈련이 어려웠다. 특히 모바일과 데스크톱 플랫폼 간 액션 표현 표준이 없어 다중 소스 데이터셋 활용이 제한적이었다.

함수 파싱 및 정규화: utils/function_parser.py를 통해 다양한 포맷의 함수 호출을 추출·파싱하고 복잡한 파라미터 구조 처리 및 함수 호출 재구성
액션 공간 통일: preprocessing/action_conversion.py로 모바일 및 PyAutoGUI 데스크톱 액션을 표준화된 함수 명명 및 인자 구조로 변환
스마트 좌표 처리: 스크롤 액션의 방향 감지 및 포괄적 파라미터 정규화를 통해 다양한 데이터셋의 좌표 표현 통일
도메인 맞춤형 변환: utils/action_space_converter.py로 통합 액션 공간을 사용자 정의 어휘 및 명명 규칙에 적응시킬 수 있는 유연성 제공
2단계 훈련 전략: 1단계에서 SmolVLM2-2.2B-Instruct에 그라운딩 능력을 주입하고, 2단계에서 에이전틱 추론 능력을 SFT로 강화

ScreenSpot-v2 벤치마크에서 훈련 과정 동안 성능 개선이 입증되었다.

GUI 자동화 모델 개발에서는 원시 모델 선택보다 데이터의 품질과 일관성이 그라운딩 능력 습득을 결정하는 핵심 요소이므로, 이질적 데이터셋을 통합 액션 공간으로 표준화하는 전처리 단계에 투자가 필수적이다.

실천 포인트

다중 GUI 자동화 데이터셋을 활용하는 엔지니어 팀에서 함수 파싱 및 액션 변환 파이프라인을 구축해 데이터를 통합 포맷으로 정규화하면, 소형 VLM(예:

2.2B 파라미터)도 SFT만으로 GUI 요소 식별 및 상호작용 능력을 획득할 수 있다.

태그