Codex(GPT-5.4)가 Katt 평가 도구를 사용해 GitHub Copilot CLI(GPT-5-mini)의 프롬프트를 자동 최적화해 테스트 통과율 0/3에서 3/3으로 개선
Self-improving Coding Agents
AI 요약
Context
낮은 성능의 코딩 AI 모델(GPT-5-mini)이 사용자 지시사항을 정확히 해석하지 못해 JSON 스키마 오류, 할루시네이션, 예상과 다른 응답 형식을 생성하는 문제가 발생했다. 기존 평가 프로세스는 정적 스냅샷과 실시간 GitHub 데이터를 비교해 테스트 자체가 불안정했다.
Technical Solution
- Katt라는 CLI 기반 평가 도구 개발: Jest/Vitest와 유사한 문법으로 코딩 에이전트 성능을 결정론적으로 측정하고, 각 실행마다 통과/실패, 실행시간, 토큰 사용량 기록
- Test-Driven Agentic Workflow(TDAW) 구현: Codex가 GPT-5-mini 테스트를 3회 실행 후 실패 원인 분석, 프롬프트 단일 변경, 커밋, 재평가하는 반복 사이클 자동화
- 프롬프트 개선 6단계 적용: (1) 정확한 JSON 출력 형식 및 필드 강제 (2) 타임스탐프 동일 시 이슈 번호로 정렬하는 타이브레이킹 규칙 추가 (3) 평가 로직을 정적 스냅샷에서 실시간 GitHub MCP 도구 기반 검증으로 전환 (4) 로컬 파일/예제 활용 차단해 MCP 데이터만 신뢰 (5) 연결 오류 발생 시 재시도 로직 추가 (6) 실험 과정 및 추론 로그 보존
- MCP(Model Context Protocol) 도구 통합: GitHub 저장소에서 실시간 이슈 데이터 조회해 할루시네이션 방지 및 정확성 보장
Impact
테스트 통과율: 0/3 → 3/3 (3회 모두 통과) 총 실행시간: 286,552ms → 364,460ms (+27%) 회당 평균 실행시간: 95.5초 → 121.5초 (+26.0초) 총 토큰 사용량: 329,625 → 893,151 (+171%) 회당 평균 토큰: 109,875 → 297,717 (+171%) Codex가 최종 프롬프트 도달에 소비한 시간: 18분 48초, 토큰: 약 58,000개
Key Takeaway
더 강력한 AI 모델이 자동화된 평가 도구를 활용해 약한 모델의 프롬프트를 반복 개선할 수 있으며, 이 과정에서 에이전트 성능뿐 아니라 평가 프로세스 자체의 결함(정적 데이터 vs 실시간 데이터)까지 발견·수정할 수 있다. 이는 TDD 원칙을 자동화된 AI 워크플로우에 적용하는 TDAW 패턴의 실질적 가치를 입증한다.
실천 포인트
AI 코딩 에이전트를 프로덕션 환경에 배포하는 팀에서 Katt와 같은 결정론적 평가 도구를 구축하고, 더 강력한 모델(Codex, GPT-4 등)을 '프롬프트 개선 에이전트'로 활용하면 낮은 성능 모델의 정확도를 70~100% 향상시킬 수 있으며, 동시에 평가 로직의 버그(실시간 vs 정적 데이터 비교)까지 자동 감지·개선할 수 있다.