피드로 돌아가기
Dev.toAI/ML
원문 읽기
LLM 교체보다 강력한 Agent Harness 최적화로 Pass@1 54.3%p 상승
Agent Harness Design Beats Model Tweaks
AI 요약
Context
기존 Coding Agent 평가 체계가 Harness를 단순한 Plumbing Layer로 취급하며 모델 크기나 Prompting에만 의존한 한계 존재. Patch-extraction 및 Workspace Contract에 대한 체계적 분석 부재로 인한 잠재적 성능 손실 발생.
Technical Solution
- 모델 변경 없이 Agent Harness 설계를 최적화한 Adapter Layer 도입
- 단순 Direct-diff 방식에서 탈피하여 정교한 Patch-extraction 로직을 적용한 Full Adapter 설계
- 모델 성능에 의존하지 않는 독립적인 Workspace Contract 정의를 통한 코드 수정 정확도 향상
- 모델 선택(29.4pp)과 유사한 수준의 성능 변동폭(27.4pp)을 유도하는 Harness 구조 최적화
- GLM 5.1 및 Qwen 3.6-flash 등 서로 다른 Backbone 모델 간의 일관된 Harness 인터페이스 적용
Impact
- GLM 5.1 기준 Pass@1 지표가 19.1%에서 73.4%로 54.3%p 대폭 상승
- Model Choice로 인한 이득(29.4pp)과 Harness Choice로 인한 이득(27.4pp)이 유사한 수준임을 입증
Key Takeaway
AI 에이전트 시스템 설계 시 모델 고도화보다 에이전트가 환경과 상호작용하는 인터페이스(Harness)의 정교함이 전체 성능을 결정하는 핵심 병목 지점임.
실천 포인트
- LLM 업그레이드 전 Patch-extraction 및 Workspace Contract 설계 최적화 여부 검토 - 모델 성능과 독립적인 모듈형 Adapter Layer 구축을 통한 성능 격리 및 검증 - Agent 평가 시 사용된 모델 버전과 Harness 변형(Variant)을 동시에 기록하는 벤치마크 체계 도입