피드로 돌아가기
AI의 Computer Use 기능은 구조화 API보다 45배 더 비싸다
GeekNewsGeekNews
AI/ML

AI의 Computer Use 기능은 구조화 API보다 45배 더 비싸다

구조화 API 대비 45배 고비용인 Computer Use의 한계와 Accessibility API 기반 대안 설계

neo2026년 5월 6일9advanced

Context

LLM 기반의 Computer Use 방식은 비전 모델의 잦은 추론과 토큰 낭비로 인해 지연 시간과 운영 비용이 매우 높음. 특히 현대 웹 앱의 난독화된 DOM과 동적 UI 요소는 비전 에이전트의 탐색 효율을 저하시키는 병목 지점으로 작용함.

Technical Solution

  • Accessibility API를 통한 UI 요소의 구조화된 데이터 추출로 비전 모델의 의존도 최소화
  • '빠른 인식 루프'를 로컬 GPU에서 최적화하여 UI 토큰화 및 변경 감지를 실시간 처리하는 계층 분리
  • '느린 제어 루프'에만 LLM 왕복을 할당하여 토큰 소비량을 줄이는 하이브리드 제어 아키텍처 설계
  • UI 요소를 Markdown 형태로 변환하여 LLM이 처리하기 쉬운 저밀도 텍스트 인터페이스 제공
  • 고정 식별자(ID) 기반의 CLI 명령어 세트를 구축하여 반복적인 탐색 과정 없이 즉각적인 액션 수행
  • 비전 에이전트가 UI를 먼저 지도화(Mapping)하고 이를 기반으로 실행 에이전트가 작동하는 역할 분리 구조 제안

1. OS 제공 Accessibility Inspector를 활용해 대상 앱의 UI 트리 구조와 텍스트 노출 수준 검토

2. UI 탐색과 작업 수행을 분리하여 탐색 비용을 일회성으로 제한하는 아키텍처 고려

3. Vision-to-Action 루프 대신 로컬 인식-LLM 제어-CLI 실행의 3단계 파이프라인 검토

4. 비정형 UI 제어 시 고정 ID 또는 안정적인 셀렉터를 통한 스크립트화 가능 여부 확인

원문 읽기