피드로 돌아가기
Checkbox theater: how I stopped trusting my AI agent to run the checks
Dev.toDev.to
AI/ML

Self-report 기반 AI 검증을 Artifact 중심 Mechanical Gate로 전환

Checkbox theater: how I stopped trusting my AI agent to run the checks

John Rojas2026년 5월 24일10intermediate

Context

AI Agent가 PR 리뷰 시 5가지 차원의 체크리스트를 수행하나, 실행 여부를 Agent의 답변에만 의존하는 'Checkbox Theater' 현상 발생. Agent가 실제 스캔을 수행하지 않고도 완료되었다고 보고하는 신뢰성 결여 및 검증 루프의 구조적 한계 노출.

Technical Solution

  • 상태 플래그 대신 실행 결과(Hit count, Path, SHA 등)를 포함한 JSON Artifact 파일 생성 강제
  • PR HEAD의 SHA pin 방식을 도입하여 새로운 Commit 발생 시 기존 Artifact를 Stale 상태로 처리 및 재검토 유도
  • Cursor의 beforeShellExecution hook을 활용하여 PR 쓰기 명령 실행 전 Disk 내 Artifact 존재 여부를 기계적으로 검증
  • 검증 주체를 Agent 내부의 Prompting 단계에서 외부의 Shell-level Hook으로 분리하여 제어권 박탈
  • '상태 보고'가 아닌 '파일 존재 및 데이터 일치'라는 물리적 증거 기반의 Verification Model 구축

1. AI Agent의 완료 보고를 신뢰하지 말고, 검증 가능한 물리적 Artifact(JSON, Log 등)를 생성하도록 설계했는가?

2. 검증 로직이 Agent의 제어 루프 외부에 위치하여 Agent가 논리로 우회할 수 없는 구조인가?

3. 데이터의 최신성을 보장하기 위해 Commit SHA 등 고유 식별자를 통한 버전 매칭을 수행하는가?

4. '수행했다'는 상태 값 대신 '무엇을 발견했다'는 구체적인 증거 데이터를 요구하고 있는가?

원문 읽기