피드로 돌아가기
Dev.toAI/ML
원문 읽기
모델 교체 없이 정확도 13.7%p 상승, Harness Engineering의 실체
Harness Engineering: 5 Companies, 5 Definitions -- Why Everyone Disagrees on What It Means
AI 요약
Context
LLM 에이전트의 성능이 프롬프트 단일 최적화만으로는 한계에 도달함. 각 기업마다 Harness Engineering에 대한 정의가 상이하여 통합된 표준 설계 방식이 부재한 상황임. 에이전트의 안정적인 실행과 결과물 품질 유지를 위한 구조적 제어 장치가 필요함.
Technical Solution
- OpenAI의 선언적 제약 시스템 도입을 통한 코드 작성 자동화 및 인간의 조향 중심 설계
- Anthropic의 Context Anxiety 해결을 위한 주기적 세션 리셋 및 state 유지용 파일 활용 전략
- LangChain의 Model-agnostic Harness 설계를 통한 지능과 실행 도구의 논리적 분리
- TypeScript strict mode 및 Rust Borrow Checker 등 강타입 언어의 제약 사항을 활용한 암시적 Harness 구축
- 자연어 기반의 역할, 계약, 검증 게이트를 포함한 실행 가능 객체 형태의 명세 표준화
- AGENTS.md 및 CLAUDE.md를 통한 명시적 제약 조건 정의와 Git Hook 기반의 자동화된 품질 게이트 적용
Impact
- OpenAI: 수동 작성 대비 빌드 시간 1/10 수준으로 단축
- LangChain: 동일 모델 기준 Harness 개선만으로 벤치마크 정확도 52.8%에서 66.5%로 13.7%p 향상
Key Takeaway
AI 에이전트의 성능은 모델 내부의 지능보다 외부의 제약 조건과 피드백 루프 설계에 더 크게 의존함. 코드베이스 자체를 Harness-friendly하게 구축하여 모델이 실수할 수 없는 구조적 환경을 만드는 것이 핵심임.
실천 포인트
AGENTS.md에 제약 조건을 명시하고 Linter 및 Type Check를 Git Hook으로 강제하여 에이전트의 오류 반복을 차단할 것