이원화된 레이어 설계로 Mind2Web 벤치마크 81% 달성

OpenAI Operator scores 43% on hard web tasks. We scored 81%. Here are all 300 runs.

Tinyfishie2026년 5월 19일5분advanced

AI 요약

Context

기존 Web Agent 아키텍처는 매 단계 Frontier Model의 스크린샷 분석에 의존함. 이로 인한 1~5초의 높은 Latency와 모델의 Stochastic 특성에 따른 일관성 결여 및 운영 비용 상승 문제가 존재함.

Reasoning Layer와 Execution Layer를 분리한 이원화 구조 설계
20~30%의 모호한 상황 판단에만 Large Model을 할당하는 Reasoning Layer 운용
기계적 인터랙션(Date Picker, Dropdown 등)을 전담하는 Task-specific Small Model 도입으로 Latency를 Milliseconds 단위로 단축
동일 입력에 대해 항상 동일한 출력을 보장하는 결정론적 Execution Layer 구현으로 Hallucination 제거
Proxy Routing 및 지리적 분산 처리를 포함한 전용 Infrastructure Layer 구축
Anti-bot 차단 감지 시 자동으로 Proxy를 재구성하는 실시간 Auto-reconfiguration 메커니즘 적용

실천 포인트

1. 워크플로우 내에서 고도의 추론이 필요한 지점(Reasoning)과 단순 반복 구간(Execution)을 정량적으로 구분했는가?

2. 결정론적 결과가 필요한 구간에 Stochastic한 대형 모델을 그대로 사용하고 있지는 않은가?

3. 외부 시스템의 차단(Blocking)에 대응하는 자동 복구 및 재구성(Auto-reconfiguration) 로직이 설계에 포함되었는가?

태그