피드로 돌아가기
Agent Harness Design Beats Model Tweaks
Dev.toDev.to
AI/ML

LLM 교체보다 강력한 Agent Harness 최적화로 Pass@1 54.3%p 상승

Agent Harness Design Beats Model Tweaks

Papers Mache2026년 6월 19일1advanced

Context

기존 Coding Agent 평가 체계가 Harness를 단순한 Plumbing Layer로 취급하며 모델 크기나 Prompting에만 의존한 한계 존재. Patch-extraction 및 Workspace Contract에 대한 체계적 분석 부재로 인한 잠재적 성능 손실 발생.

Technical Solution

  • 모델 변경 없이 Agent Harness 설계를 최적화한 Adapter Layer 도입
  • 단순 Direct-diff 방식에서 탈피하여 정교한 Patch-extraction 로직을 적용한 Full Adapter 설계
  • 모델 성능에 의존하지 않는 독립적인 Workspace Contract 정의를 통한 코드 수정 정확도 향상
  • 모델 선택(29.4pp)과 유사한 수준의 성능 변동폭(27.4pp)을 유도하는 Harness 구조 최적화
  • GLM 5.1 및 Qwen 3.6-flash 등 서로 다른 Backbone 모델 간의 일관된 Harness 인터페이스 적용

Impact

  • GLM 5.1 기준 Pass@1 지표가 19.1%에서 73.4%로 54.3%p 대폭 상승
  • Model Choice로 인한 이득(29.4pp)과 Harness Choice로 인한 이득(27.4pp)이 유사한 수준임을 입증

Key Takeaway

AI 에이전트 시스템 설계 시 모델 고도화보다 에이전트가 환경과 상호작용하는 인터페이스(Harness)의 정교함이 전체 성능을 결정하는 핵심 병목 지점임.


- LLM 업그레이드 전 Patch-extraction 및 Workspace Contract 설계 최적화 여부 검토 - 모델 성능과 독립적인 모듈형 Adapter Layer 구축을 통한 성능 격리 및 검증 - Agent 평가 시 사용된 모델 버전과 Harness 변형(Variant)을 동시에 기록하는 벤치마크 체계 도입

원문 읽기