Harness 설계를 통한 Terminal Bench 2.0 13.7%p 성능 향상

The Complete Claude Code Harness Engineering Guide (5 Layers, 8 Deep-Dives)

ShipWithAI2026년 5월 8일6분advanced

AI 요약

Context

LLM 모델 자체의 성능은 범용화된 Commodity 수준에 도달하여 단순 모델 교체만으로는 차별화된 성능 확보가 어려움. 기존의 Prompt Engineering 기반 접근은 모델의 추론 과정에서 무시될 가능성이 높은 '권고 사항'에 불과하여 런타임 신뢰성 확보에 한계가 있음.

Technical Solution

Model 외부의 제약 사항을 정의하는 5 Layer Harness 아키텍처 설계로 제어 가능성 확보
Memory Layer: CLAUDE.md를 통한 프로젝트 규칙 정의 및 MEMORY.md를 활용한 세션 간 상태 유지
Hooks Layer: PreToolUse/PostToolUse를 통한 런타임 강제 집행으로 모델의 임의 판단을 원천 차단하는 결정론적 제어 구현
Observability Layer: Verification Middleware를 도입하여 Agent가 작업 완료 전 자체 검증을 수행하는 Self-Verification Loop 구축
Constraint Paradox 적용: 모델의 추론 자유도를 낮추고 명확한 제약 조건을 부여하여 출력의 정밀도 향상
MCP(Model Context Protocol) 기반의 Tools 및 Permissions 설정을 통한 리소스 접근 권한의 엄격한 관리

실천 포인트

- 단순 지침 중심의 CLAUDE.md를 실제 실패 사례 기반의 Failure Log 형태로 전환 - 파괴적 작업(예: DROP TABLE) 방지를 위한 PreToolUse Hook 기반의 Hard-block으로 런타임 안정성 확보 - 세션 시작 시 읽어들이는 MEMORY.md 인덱스 파일을 구축하여 아키텍처 결정 사항의 반복 설명 제거 - Task 완료 전 단계에 자체 검증 루프(Verification Loop)를 삽입하여 결과물 품질 상향 평준화

태그

#pretooluse hook #Constraint Paradox #Self-Verification Loop #Harness Engineering #LLM-Agent

원문 읽기