피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Holo3, OSWorld 벤치마크 78.85% 달성함
Holo3: Breaking the Computer Use Frontier
AI 요약
Context
기존 대형 Proprietary 모델들은 높은 비용과 제한된 범용성으로 기업 환경 적용에 한계가 있음. 실제 기업 시스템에서 복잡한 멀티앱 워크플로우를 자율적으로 처리할 수 있는 모델이 필요함.
Technical Solution
- Agentic Flywheel: Synthetic Navigation Data, Out-of-Domain Augmentation, Curated Reinforcement Learning을 결합한 지속적 피드백 루프를 구축함
- Synthetic Environment Factory: Coding Agent가 시나리오 사양에서 웹사이트를 자동으로 프로그래밍하여 검증 가능한 엔터프라이즈 환경을 생성함
- H Corporate Benchmarks: E-commerce, Business software, Collaboration, Multi-App 카테고리에 걸쳐 486개 멀티스텝 태스크로 현실적 평가를 수행함
- Sparse Activation: 122B 총 파라미터 중 10B만 활성화하여 GPT 5.4나 Opus 4.6 대비 비용을 대폭 절감함
Impact
OSWorld-Verified 벤치마크에서 78.85%를 달성하여 산업 최고 수준을 기록함. 훨씬 적은 활성화 파라미터로 대규모 모델 대비 높은 성공률을 달성함.
Key Takeaway
합성 데이터 기반 Agentic Flywheel 학습 파이프라인은 실제 기업 환경의 다양하고 복잡한 인터페이스에 대한 범용적 적응력을 확보함.
실천 포인트
기업 환경에서 AI 에이전트를 구축할 때 Synthetic Environment Factory 패턴으로 도메인 특화 시뮬레이션 환경을 먼저 생성하고, Reinforcement Learning 기반 Flywheel으로 지속적으로 품질을 개선하는 접근이 효과적임. 평가 단계에서 실제 멀티앱 워크플로우를 반영한 벤치마크를 반드시 설계해야 함.