LLM 교체보다 강력한 Agent Harness 최적화로 Pass@1 54.3%p 상승

Agent Harness Design Beats Model Tweaks

Papers Mache2026년 6월 19일1분advanced

AI 요약

Context

기존 Coding Agent 평가 체계가 Harness를 단순한 Plumbing Layer로 취급하며 모델 크기나 Prompting에만 의존한 한계 존재. Patch-extraction 및 Workspace Contract에 대한 체계적 분석 부재로 인한 잠재적 성능 손실 발생.

Technical Solution

모델 변경 없이 Agent Harness 설계를 최적화한 Adapter Layer 도입
단순 Direct-diff 방식에서 탈피하여 정교한 Patch-extraction 로직을 적용한 Full Adapter 설계
모델 성능에 의존하지 않는 독립적인 Workspace Contract 정의를 통한 코드 수정 정확도 향상
모델 선택(29.4pp)과 유사한 수준의 성능 변동폭(27.4pp)을 유도하는 Harness 구조 최적화
GLM 5.1 및 Qwen 3.6-flash 등 서로 다른 Backbone 모델 간의 일관된 Harness 인터페이스 적용

Impact

GLM 5.1 기준 Pass@1 지표가 19.1%에서 73.4%로 54.3%p 대폭 상승
Model Choice로 인한 이득(29.4pp)과 Harness Choice로 인한 이득(27.4pp)이 유사한 수준임을 입증

Key Takeaway

AI 에이전트 시스템 설계 시 모델 고도화보다 에이전트가 환경과 상호작용하는 인터페이스(Harness)의 정교함이 전체 성능을 결정하는 핵심 병목 지점임.

실천 포인트

- LLM 업그레이드 전 Patch-extraction 및 Workspace Contract 설계 최적화 여부 검토 - 모델 성능과 독립적인 모듈형 Adapter Layer 구축을 통한 성능 격리 및 검증 - Agent 평가 시 사용된 모델 버전과 Harness 변형(Variant)을 동시에 기록하는 벤치마크 체계 도입

태그

#Agent Harness #Patch-extraction #Adapter Layer #Pass@1 #SWE-bench

원문 읽기