피드로 돌아가기
Dev.toAI/ML
원문 읽기
Pure Vision 기반 On-Device GUI Agent로 OSWorld 1위 달성
Open-Sourcing Mano-P Today: Pure Vision GUI Agent, OSWorld #1, Apache 2.0
AI 요약
Context
기존 GUI 자동화는 CDP나 HTML 파싱에 의존하여 브라우저 환경으로 제한되거나, 클라우드 전송으로 인한 데이터 프라이버시 침해 문제가 존재함. 좌표 기반 RPA의 경우 UI 변경 시 동작이 중단되는 낮은 유연성이 병목 지점으로 작용함.
Technical Solution
- CDP 및 DOM 파싱을 완전히 배제하고 raw screen capture만 처리하는 Pure Vision 구조 설계
- Text↔Action 간의 bidirectional self-enhancement를 통한 미학습 UI에 대한 일반화 성능 강화
- SFT, Offline RL, Online RL로 이어지는 3단계 학습 파이프라인을 통한 정책 최적화
- GSPruning 기술로 visual token 유지량을 25%로 압축하여 추론 처리량 2~3배 향상
- 단일 시퀀스 생성 대신 Think-Act-Verify 루프를 도입하여 단계별 검증 기반의 강건한 제어 구현
- Apple M4 Pro 기반의 4B Quantized 모델 적용으로 완전한 On-Device 추론 환경 구축
Impact
- OSWorld 벤치마크에서 58.2% 성공률로 Proprietary 모델 중 1위 기록
- Apple M4 Pro 기준 Prefill 476 tokens/s, Decode 76 tokens/s의 On-Device 성능 확보
- Peak Memory 4.3 GB 사용으로 저사양 하드웨어 최적화 달성
- ScreenSpot-V2 93.5, MMBench 87.5 등 13개 멀티모달 벤치마크 SOTA 기록
Key Takeaway
특정 프로토콜에 의존하는 추상화 레이어를 제거하고 Vision 중심의 직접 접근 방식을 채택함으로써 도메인 제약을 극복하고 범용성을 확보한 사례임.
실천 포인트
- UI 자동화 설계 시 DOM 의존도를 낮추고 Vision-based 접근 방식을 검토하여 범용성 확보 - 대규모 모델의 On-Device 배포를 위해 Guided Structural Pruning과 같은 토큰 압축 전략 적용 - 복잡한 에이전트 워크플로우 설계 시 One-shot planning 대신 Verify 루프를 통한 단계적 검증 구조 도입