피드로 돌아가기
Dev.toMobile
원문 읽기
스크립트 없는 모바일 테스트, MCP 기반의 Perceptual Agency 구현
From Intent Classification to Open-Ended Action Spaces: Why Mobile Testing Needed a New Paradigm
AI 요약
Context
기존 Mobile AI 시스템은 사전 정의된 Intent와 Slot에 의존하는 Closed-World 구조. 컴파일 타임에 등록되지 않은 UI 요소나 새로운 앱의 액션 공간을 처리하지 못하는 한계. 매 릴리스마다 깨지는 Appium 스크립트와 XPath 유지보수의 높은 비용 문제.
Technical Solution
- 모델과 외부 도구를 연결하는 MCP(Model Context Protocol) 서버 아키텍처 채택으로 LLM과 디바이스 제어 계층 분리
- 스크린 상태를 300토큰 내외의 텍스트 설명으로 변환하는 Text-First Perception 전략을 통해 Vision 모델 호출 비용 최적화
- tap, type, swipe 등 13가지 기본 동작(Primitives)과 실행 후 화면 변경 사항을 반환하는 Situation Report 구조 설계
- 앱 API 노출이나 Accessibility Label 의존성 없이 UI Tree 분석과 Vision Fallback을 조합한 Open-World 탐색 방식 구현
- Rust 기반 단일 바이너리로 구축하여 런타임 의존성을 제거하고 Android, iOS, Cloud Device Farm을 통합 지원하는 인터페이스 제공
Impact
- Text-First 접근 방식을 통해 매 단계 스크린샷을 전송하는 방식 대비 비용 100배 절감
- FunctionGemma 모델 기준 Pixel 7 Pro에서 1,916 tokens/sec의 prefill 속도 달성
Key Takeaway
정해진 경로를 따라가는 Scripted Automation에서 화면을 인지하고 판단하는 Perceptual Agency로의 패러다임 전환. 도구(Server)와 지능(Model)을 분리하는 표준 프로토콜 기반 설계가 시스템의 지속 가능성을 결정함.
실천 포인트
UI 변경이 잦은 모바일 앱 테스트 시 XPath 기반 스크립트 대신 MCP 기반의 에이전틱 테스트 도입을 검토할 것