Pure Vision 기반 On-Device GUI Agent로 OSWorld 1위 달성

Open-Sourcing Mano-P Today: Pure Vision GUI Agent, OSWorld #1, Apache 2.0

Mininglamp2026년 4월 13일4분advanced

AI 요약

Context

기존 GUI 자동화는 CDP나 HTML 파싱에 의존하여 브라우저 환경으로 제한되거나, 클라우드 전송으로 인한 데이터 프라이버시 침해 문제가 존재함. 좌표 기반 RPA의 경우 UI 변경 시 동작이 중단되는 낮은 유연성이 병목 지점으로 작용함.

Technical Solution

CDP 및 DOM 파싱을 완전히 배제하고 raw screen capture만 처리하는 Pure Vision 구조 설계
Text↔Action 간의 bidirectional self-enhancement를 통한 미학습 UI에 대한 일반화 성능 강화
SFT, Offline RL, Online RL로 이어지는 3단계 학습 파이프라인을 통한 정책 최적화
GSPruning 기술로 visual token 유지량을 25%로 압축하여 추론 처리량 2~3배 향상
단일 시퀀스 생성 대신 Think-Act-Verify 루프를 도입하여 단계별 검증 기반의 강건한 제어 구현
Apple M4 Pro 기반의 4B Quantized 모델 적용으로 완전한 On-Device 추론 환경 구축

Impact

OSWorld 벤치마크에서 58.2% 성공률로 Proprietary 모델 중 1위 기록
Apple M4 Pro 기준 Prefill 476 tokens/s, Decode 76 tokens/s의 On-Device 성능 확보
Peak Memory 4.3 GB 사용으로 저사양 하드웨어 최적화 달성
ScreenSpot-V2 93.5, MMBench 87.5 등 13개 멀티모달 벤치마크 SOTA 기록

Key Takeaway

특정 프로토콜에 의존하는 추상화 레이어를 제거하고 Vision 중심의 직접 접근 방식을 채택함으로써 도메인 제약을 극복하고 범용성을 확보한 사례임.

실천 포인트

- UI 자동화 설계 시 DOM 의존도를 낮추고 Vision-based 접근 방식을 검토하여 범용성 확보 - 대규모 모델의 On-Device 배포를 위해 Guided Structural Pruning과 같은 토큰 압축 전략 적용 - 복잡한 에이전트 워크플로우 설계 시 One-shot planning 대신 Verify 루프를 통한 단계적 검증 구조 도입

태그

#GUI Agent #Reinforcement Learning #Pure-Vision #On-Device AI #GSPruning

원문 읽기