피드로 돌아가기
Dev.toAI/ML
원문 읽기
OSWorld 1위, Pure Vision 기반 On-Device GUI Agent Mano-P 오픈소스 공개
Open-Sourcing Mano-P Today: Pure Vision GUI Agent, OSWorld #1, Apache 2.0
AI 요약
Context
기존 GUI 자동화는 CDP 및 HTML 파싱 의존으로 인한 브라우저 환경 한계 또는 클라우드 전송에 따른 데이터 프라이버시 문제가 상존함. 이러한 제약을 극복하기 위해 OS와 애플리케이션 종류에 관계없이 작동하는 범용적 인터페이스 제어 구조가 필요함.
Technical Solution
- CDP 및 Accessibility API를 완전히 배제하고 Raw Screenshot만을 처리하는 Pure-Vision 아키텍처 채택
- Text-Action 및 Action-Text 간의 Cycle Consistency를 강제하는 Mano-Action 양방향 자기 강화 학습 적용
- SFT, Offline RL, Online RL로 이어지는 3단계 학습 파이프라인을 통한 GUI 정책 최적화
- GSPruning 기술로 Visual Token 유지량을 25%까지 압축하여 On-Device 추론 처리량 2~3배 향상
- 일괄 계획 생성 대신 '분석-실행-검증-재계획'으로 이어지는 Think-Act-Verify 루프를 통한 실행 안정성 확보
Impact
- OSWorld 벤치마크에서 58.2% 성공률을 기록하며 Proprietary 모델 중 1위 달성
- Apple M4 Pro 기준 4B 양자화 모델(w4a16)에서 Prefill 476 tokens/s, Decode 76 tokens/s 성능 구현
- GSPruning 적용을 통한 추론 처리량 2~3배 증가 및 Peak Memory 4.3GB 수준의 경량화 달성
Key Takeaway
특정 프로토콜 의존성을 제거한 Vision-centric 설계가 시스템 범용성을 극대화하며, 구조적 가지치기(Structural Pruning)와 양방향 학습이 On-Device AI의 실용성을 결정짓는 핵심 요소임.
실천 포인트
- GUI 자동화 설계 시 DOM/API 의존도를 낮추고 Vision 기반의 범용 인터페이스 채택 검토 - 모델 경량화 필요 시 Token Pruning을 통해 정확도 손실을 최소화하며 Throughput 개선 가능성 확인 - 복잡한 Task 수행 시 One-shot Planning보다 단계별 검증 루프(Verify Loop) 도입을 통한 신뢰성 확보