27B 로컬 모델의 불확실성을 Deterministic Harness로 제어한 설계

Trust the harness, not the model: a weekend of local agents building their own guardrails

Christopher Maher2026년 6월 22일9분advanced

AI 요약

Context

로컬 27B 코딩 모델의 Stochastic한 출력으로 인한 낮은 신뢰도와 가변적인 코드 품질 문제 발생. 단순 Prompt Tuning만으로는 Frontier 모델 수준의 신뢰성을 확보할 수 없는 기술적 한계 직면.

Technical Solution

Model Output을 신뢰하지 않고 시스템적 검증을 강제하는 Harness Pipeline 설계
Cloned Workspace 내에서 gofmt, vet, build, lint 및 Unit Test를 실행하는 Fast In-workspace Gate 구축
Issue-Diff 간의 Overlap을 Repo Map으로 계산하여 엉뚱한 서브시스템 수정 시 차단하는 Scope Guard 도입
신규 테스트가 기존 코드(Pre-change code)에서도 통과하는 'Self-confirming test'를 방지하는 Bite Check 로직 구현
Production 실제 값 사용 여부와 메트릭 연결성을 강제하는 Reviewer Rubric 적용
최종 승인 전 Clean-room Kubernetes Job을 통한 전체 테스트 스위트 재검증 체계 구축

실천 포인트

- 테스트 케이스가 구현 전 코드에서도 Pass하는지 확인하여 테스트의 유효성(Biting) 검증 - LLM 생성 코드의 영향 범위를 Repo Map 기반의 Scope Check로 제한하여 Side Effect 방지 - 모델의 확률적 결과물과 독립된 결정론적(Deterministic) 검증 레이어를 파이프라인에 배치

태그

#Local-LLM #CI/CD Pipeline #Deterministic Testing #Guardrails #Agentic Workflow

원문 읽기