모델 가중치 아닌 Harness 설계를 통한 LLM 품질 제어

Claude Code didn't get worse. The harness did. And that ends one of the most common AI complaints of 2026.

Anil Kurmi2026년 5월 16일5분intermediate

AI 요약

Context

사용자들은 모델 가중치 변경으로 인한 성능 저하를 의심했으나, 실제로는 모델 외부의 제어 계층인 Harness 설정 변경으로 인한 품질 저하 발생. 단순 모델 교체가 아닌 기본값, 캐시, 프롬프트 등 인프라 레이어의 복합적 상호작용이 시스템 전체의 신뢰성을 결정하는 구조임.

Technical Solution

Latency 감소를 위해 Reasoning Effort 기본값을 High에서 Medium으로 변경하여 추론 깊이 제한
세션 내 오래된 추론 기록을 삭제하는 Caching 로직 오류로 인해 컨텍스트가 반복적으로 소실되는 병목 발생
System Prompt 내 Brevity Instruction 추가로 인한 출력 길이 제한이 코딩 퀄리티 저하를 유발
모델 가중치가 아닌 Defaults, Caches, Prompts를 독립적인 변경 가능 요소로 정의하는 분산 시스템 관점의 접근
Harness 변경 시마다 실행되는 Eval Delta 검증 체계 구축을 통한 회귀 테스트 강화

실천 포인트

1. Default Model, Reasoning Depth, System Prompt, Cache TTL 등 모든 Harness Knob 리스트업

2. 프롬프트의 단순 문구 수정도 프로덕션 코드 변경과 동일한 Review 및 Rollout Gate 적용

3. Golden Dataset 기반의 Harness 전용 Eval CI 파이프라인 구축

4. Session ID, Prompt Version, Cache State를 포함한 Trace 데이터 로깅으로 재현 환경 확보

태그

#System Prompt #Regression Testing #Reasoning Depth #LLM Harness #Evaluation Delta

원문 읽기