피드로 돌아가기
OpenAI Operator scores 43% on hard web tasks. We scored 81%. Here are all 300 runs.
Dev.toDev.to
AI/ML

이원화된 레이어 설계로 Mind2Web 벤치마크 81% 달성

OpenAI Operator scores 43% on hard web tasks. We scored 81%. Here are all 300 runs.

Tinyfishie2026년 5월 19일5advanced

Context

기존 Web Agent 아키텍처는 매 단계 Frontier Model의 스크린샷 분석에 의존함. 이로 인한 1~5초의 높은 Latency와 모델의 Stochastic 특성에 따른 일관성 결여 및 운영 비용 상승 문제가 존재함.

Technical Solution

  • Reasoning Layer와 Execution Layer를 분리한 이원화 구조 설계
  • 20~30%의 모호한 상황 판단에만 Large Model을 할당하는 Reasoning Layer 운용
  • 기계적 인터랙션(Date Picker, Dropdown 등)을 전담하는 Task-specific Small Model 도입으로 Latency를 Milliseconds 단위로 단축
  • 동일 입력에 대해 항상 동일한 출력을 보장하는 결정론적 Execution Layer 구현으로 Hallucination 제거
  • Proxy Routing 및 지리적 분산 처리를 포함한 전용 Infrastructure Layer 구축
  • Anti-bot 차단 감지 시 자동으로 Proxy를 재구성하는 실시간 Auto-reconfiguration 메커니즘 적용

1. 워크플로우 내에서 고도의 추론이 필요한 지점(Reasoning)과 단순 반복 구간(Execution)을 정량적으로 구분했는가?

2. 결정론적 결과가 필요한 구간에 Stochastic한 대형 모델을 그대로 사용하고 있지는 않은가?

3. 외부 시스템의 차단(Blocking)에 대응하는 자동 복구 및 재구성(Auto-reconfiguration) 로직이 설계에 포함되었는가?

원문 읽기