피드로 돌아가기
Dev.toAI/ML
원문 읽기
Action-Table 도입을 통한 Android UI 토큰 비용 최대 12.8배 절감
Stop Wasting Tokens on Android Automation
AI 요약
Context
LLM 기반 Android 자동화 시 UIAutomator의 XML Dump를 그대로 사용하여 불필요한 Layout Machinery 토큰이 대량 발생함. 이는 50단계의 Agent Trajectory 수행 시 막대한 비용과 Latency를 유발하며 모델의 Attention을 분산시키는 병목 지점으로 작용함.
Technical Solution
- 불필요한 DOM Tree 구조를 제거하고 Actionable한 요소만 추출한 Action Table 인터페이스 설계
- 클릭 불가능한 노드, 중복된 Boolean 속성, Full Class Name 등 Action과 무관한 Fact를 필터링하는 최적화 규칙 적용
- 복잡한 Bounds Rectangle 좌표를 단순한 Center Point 좌표로 변환하여 토큰 밀도 향상
- 텍스트 기반 UI를 기본으로 제공하고 시각적 컨텍스트가 필수적인 경우에만 Screenshot을 호출하는 Hybrid Loop 구조 채택
- 모델이 Layout Ancestor를 파싱하지 않고 Label과 Action Type만으로 즉각 의사결정을 내리도록 정보 구조 단순화
실천 포인트
1. LLM Tool 출력 시 모델이 액션에 활용하지 않는 기본값이나 중복 속성을 제거했는가?
2. 복잡한 계층 구조(Nested Tree)를 평탄한 리스트(Flat List)로 변환하여 컨텍스트 윈도우를 확보했는가?
3. 모든 단계에 이미지/Full XML을 전송하는 대신, 텍스트 우선 제공 후 필요 시에만 멀티모달 데이터를 호출하는 전략을 사용하고 있는가?