피드로 돌아가기
H Company's new Holo2 model takes the lead in UI Localization
Hugging Face BlogHugging Face Blog
AI/ML

H Company가 Agentic Localization 기법과 SkyPilot 분산 학습으로 Holo2-235B-A22B 모델 개발, UI 요소 인식 성능을 단일 스텝 70.6%에서 3스텝 78.5%로 향상

H Company's new Holo2 model takes the lead in UI Localization

2026년 2월 3일5intermediate

Context

고해상도 4K 인터페이스에서 작은 UI 요소의 정확한 위치 파악이 어려운 상황이었으며, 대규모 모델 학습 시 여러 클라우드 제공자 간 워크로드 조율의 복잡성이 존재했다.

Technical Solution

  • Agentic Localization 도입: 단일 스텝 예측을 반복적으로 정제하는 다단계 추론으로 모든 Holo2 모델 크기에서 10~20% 상대 성능 개선
  • 다중 클라우드 학습 환경 구축: SkyPilot을 통합 인터페이스로 사용하여 Kubernetes 클러스터 간 학습 작업 조율
  • SkyPilot 추상화: 인프라 복잡성을 제거하여 연구자가 k8s 매니페스트 작성 및 배포 스크립트 유지보수 대신 모델 개발에 집중

Impact

  • ScreenSpot-Pro 벤치마크에서 78.5% 달성 (이전 SOTA 갱신)
  • OSWorld G 벤치마크에서 79.0% 달성
  • 3스텝 Agentic 모드에서 70.6%(단일 스텝) → 78.5%(3스텝)로 성능 향상

Key Takeaway

대규모 모델의 UI 인식 작업에서 반복적 정제와 다중 클라우드 통합 인터페이스는 성능과 개발 효율성을 동시에 확보하는 핵심 설계 전략이다.


UI 자동화 또는 시각적 그라운딩 모델을 개발하는 팀에서 Agentic Localization 패턴(초기 예측 → 반복 정제)을 적용하면 단일 스텝 대비 10~20% 상대 성능 향상을 기대할 수 있으며, 다중 클라우드 환경의 모델 학습 시 SkyPilot 같은 추상화 계층을 도입하면 인프라 관리 오버헤드를 줄이고 연구자의 개발 생산성을 높일 수 있다.

원문 읽기