피드로 돌아가기
Show HN: I made an AI that reviews iPhone apps – 1h of autonomous GUI work
Dev.toDev.to
AI/ML

Understudy가 GUI 에이전트를 통해 iPhone 앱을 자동으로 설치, 테스트, 리뷰하고 YouTube에 업로드하는 1시간 자율 워크플로우 구현

Show HN: I made an AI that reviews iPhone apps – 1h of autonomous GUI work

jg-noncelogic2026년 3월 28일1advanced

Context

GUI 에이전트가 장시간 실행될 때 컨텍스트 윈도우 폭증, 예상 외 다이얼로그로 인한 실행 중단, 디바이스 제어 비결정성 등의 문제가 발생한다.

Technical Solution

  • 작업을 6단계로 분리: 앱 스토어 스크래핑 → mirroring을 통한 설치 → 탐색적 테스트 → 목표 지향 검증 → 미디어 캡처 → 미디어 합성 및 업로드
  • 유형화된 자식 세션으로 작업 분할: 각 단계별로 독립적인 세션을 생성하여 단일 컨텍스트의 폭증 방지
  • 결정론적 워커와 에이전틱 스킬 분리: 장치 제어 및 브라우저 작업은 I/O 기반 결정론적 워커로 구현, 발견 및 의사결정은 에이전틱 스킬로 분리
  • 실시간 스크린샷 기반 재접지: 매 행동마다 라이브 스크린샷에서 UI 상태를 재확인하여 예상 외 다이얼로그 대응
  • FFmpeg를 통한 로컬 미디어 파이프라인: 스크린샷, 비디오, 음성을 FFmpeg로 로컬 처리하여 감사 가능한 컴포지션 구현

Key Takeaway

장시간 GUI 에이전트의 견고성을 확보하려면 결정론적 워커로 디바이스 작업을 격리하고, 에이전틱 발견 능력과 분리하며, 세션 단위로 인공물을 번들화하고 인간 검증 단계를 거쳐야 한다.


GUI 자동화 에이전트를 구축하는 팀에서 작업을 결정론적 I/O 워커(장치 제어, 상태 쿼리)와 에이전틱 스킬(탐색, 판단)로 분리하고, 매 단계마다 스크린샷을 캡처하여 현재 상태를 재확인하며, 세션을 단계별로 격리하면 장시간 실행 중에도 예상 외 상황에 강건하게 대응할 수 있다.

원문 읽기
Show HN: I made an AI that reviews iPhone apps – 1h of autonomous GUI work | Devpick