피드로 돌아가기
Open Source Project of the Day (Part 29): Open-AutoGLM - A Phone Agent Framework for Controlling Phones with Natural Language
Dev.toDev.to
AI/ML

자연어로 모바일 기기를 제어하는 Open-AutoGLM 프레임워크 분석

Open Source Project of the Day (Part 29): Open-AutoGLM - A Phone Agent Framework for Controlling Phones with Natural Language

WonderLab2026년 4월 4일9intermediate

Context

모바일 기기 제어를 위해 복잡한 스크립트 작성이나 단계별 수동 조작 필요. GUI 인터페이스에 최적화된 시각적 이해 모델과 실행 프레임워크의 부재. Android와 HarmonyOS를 동시에 지원하는 통합 제어 표준 부족.

Technical Solution

  • '스크린샷 → 시각 모델 분석 → 액션 도출 → 실행'으로 이어지는 폐쇄 루프(Closed-loop) 제어 구조
  • ADB 및 HDC 프로토콜을 활용한 Android 7.0+ 및 HarmonyOS NEXT 기기 원격 제어 설계
  • 모바일 인터페이스 최적화 9B 파라미터 규모의 AutoGLM-Phone Vision-Language Model 적용
  • vLLM 및 SGLang 기반의 self-hosting 구조를 통한 추론 최적화 및 Structured Output 보장
  • 로그인 및 CAPTCHA 상황 대응을 위한 Human Takeover 및 민감 작업 확인 콜백 메커니즘 구현
  • Midscene.js 등 외부 UI 자동화 도구와 결합 가능한 확장형 프레임워크 아키텍처

Impact

  • 9B 파라미터 규모의 모델 사용
  • 24GB 이상의 VRAM GPU 환경 권장
  • 약 20GB의 모델 크기
  • 50개 이상의 Android 앱 및 60개 이상의 HarmonyOS 앱 지원

Key Takeaway

멀티모달 LLM을 GUI Agent로 확장하기 위해 시각적 인터페이스 해석과 OS 수준의 제어 프로토콜을 결합한 추상화 계층 설계의 중요성 확인.


로컬 배포 시 출력 오류 방지를 위해 vLLM의 --max-model-len 설정을 25480으로 최적화할 것

원문 읽기