Codex(GPT-5.4)가 Katt 평가 도구를 사용해 GitHub Copilot CLI(GPT-5-mini)의 프롬프트를 자동 최적화해 테스트 통과율 0/3에서 3/3으로 개선

Self-improving Coding Agents

Raphael Porto2026년 3월 27일6분advanced

AI 요약

Context

낮은 성능의 코딩 AI 모델(GPT-5-mini)이 사용자 지시사항을 정확히 해석하지 못해 JSON 스키마 오류, 할루시네이션, 예상과 다른 응답 형식을 생성하는 문제가 발생했다. 기존 평가 프로세스는 정적 스냅샷과 실시간 GitHub 데이터를 비교해 테스트 자체가 불안정했다.

Technical Solution

Katt라는 CLI 기반 평가 도구 개발: Jest/Vitest와 유사한 문법으로 코딩 에이전트 성능을 결정론적으로 측정하고, 각 실행마다 통과/실패, 실행시간, 토큰 사용량 기록
Test-Driven Agentic Workflow(TDAW) 구현: Codex가 GPT-5-mini 테스트를 3회 실행 후 실패 원인 분석, 프롬프트 단일 변경, 커밋, 재평가하는 반복 사이클 자동화
프롬프트 개선 6단계 적용: (1) 정확한 JSON 출력 형식 및 필드 강제 (2) 타임스탐프 동일 시 이슈 번호로 정렬하는 타이브레이킹 규칙 추가 (3) 평가 로직을 정적 스냅샷에서 실시간 GitHub MCP 도구 기반 검증으로 전환 (4) 로컬 파일/예제 활용 차단해 MCP 데이터만 신뢰 (5) 연결 오류 발생 시 재시도 로직 추가 (6) 실험 과정 및 추론 로그 보존
MCP(Model Context Protocol) 도구 통합: GitHub 저장소에서 실시간 이슈 데이터 조회해 할루시네이션 방지 및 정확성 보장

Impact

테스트 통과율: 0/3 → 3/3 (3회 모두 통과) 총 실행시간: 286,552ms → 364,460ms (+27%) 회당 평균 실행시간: 95.5초 → 121.5초 (+26.0초) 총 토큰 사용량: 329,625 → 893,151 (+171%) 회당 평균 토큰: 109,875 → 297,717 (+171%) Codex가 최종 프롬프트 도달에 소비한 시간: 18분 48초, 토큰: 약 58,000개

Key Takeaway

더 강력한 AI 모델이 자동화된 평가 도구를 활용해 약한 모델의 프롬프트를 반복 개선할 수 있으며, 이 과정에서 에이전트 성능뿐 아니라 평가 프로세스 자체의 결함(정적 데이터 vs 실시간 데이터)까지 발견·수정할 수 있다. 이는 TDD 원칙을 자동화된 AI 워크플로우에 적용하는 TDAW 패턴의 실질적 가치를 입증한다.

실천 포인트

AI 코딩 에이전트를 프로덕션 환경에 배포하는 팀에서 Katt와 같은 결정론적 평가 도구를 구축하고, 더 강력한 모델(Codex, GPT-4 등)을 '프롬프트 개선 에이전트'로 활용하면 낮은 성능 모델의 정확도를 70~100% 향상시킬 수 있으며, 동시에 평가 로직의 버그(실시간 vs 정적 데이터 비교)까지 자동 감지·개선할 수 있다.

태그

#Test-Driven Agentic Workflow #Prompt Engineering #Coding agents #AI Evaluation #LLM

원문 읽기