피드로 돌아가기
Holo1: New family of GUI automation VLMs powering GUI agent Surfer-H
Hugging Face BlogHugging Face Blog
AI/ML

H Company가 Holo1 Action VLM 모델군을 개발하여 웹 UI 자동화 에이전트 Surfer-H로 실제 웹 작업 정확도 92.2%, 작업당 비용 $0.13 달성

Holo1: New family of GUI automation VLMs powering GUI agent Surfer-H

2025년 6월 3일8intermediate

Context

웹 자동화 솔루션은 성능과 비용 효율성 사이의 트레이드오프를 안고 있었다. 기존 에이전트들은 높은 정확도를 위해 맞춤 API나 취약한 래퍼에 의존했고, 이로 인해 비용 효율성이 떨어졌다.

Technical Solution

  • Holo1 Action VLM 모델군 개발: Qwen2.5-VL 아키텍처 기반의 오픈소스 3B, 7B 모델을 UI 이해와 정위치 지정에 최적화
  • UI 로컬라이제이션 벤치마크 달성: Holo1-7B 모델로 일반적인 UI 로컬라이제이션 벤치마크에서 76.2% 평균 정확도 기록 (소규모 모델 중 최고)
  • Surfer-H 모듈식 아키텍처 구성: Policy 모델(행동 계획), Localizer 모델(시각적 UI 이해), Validator 모델(작업 완료 확인)의 3개 독립 컴포넌트로 구성
  • 브라우저 기반 순수 자동화 구현: 맞춤 API나 래퍼 없이 브라우저 인터페이스만으로 읽기, 생각하기, 클릭, 스크롤, 입력, 검증 수행
  • Transformers 라이브러리 호환성: Flash Attention 2 최적화와 함께 표준 Hugging Face 모델 로딩 및 추론 지원

Impact

  • 웹 작업 정확도: 92.2%
  • 작업당 실행 비용: $0.13
  • Holo1-7B 벤치마크 정확도: 76.2% (소규모 모델 최고 수준)
  • WebClick 벤치마크 규모: 1,639개 인간 수준 UI 작업 포함

Key Takeaway

오픈소스 Action VLM과 모듈식 에이전트 아키텍처 조합으로 API 의존성을 제거하고 비용 효율성을 확보하면서도 높은 정확도를 달성할 수 있다. 시스템 아키텍처를 정책, 로컬라이저, 검증자로 분리함으로써 각 컴포넌트의 독립적 최적화와 유연한 구성이 가능하다.


웹 자동화 에이전트를 개발하는 엔지니어는 Holo1-3B 또는 Holo1-7B 모델을 Localizer 컴포넌트로 적용하면 맞춤 좌표 추출 로직을 대체하고 정확도는 높이면서 운영 비용을 크게 절감할 수 있다. Transformers 라이브러리의 표준 로딩 메커니즘과 Flash Attention 2 최적화를 함께 사용하면 추론 성능과 메모리 효율성 모두를 개선할 수 있다.

원문 읽기