피드로 돌아가기
我讓三個 AI 各司其職寫程式:Codex 出測試、Grok 寫實作、Claude 驗收
Dev.toDev.to
AI/ML

我讓三個 AI 各司其職寫程式:Codex 出測試、Grok 寫實作、Claude 驗收

Multi-Agent Pipeline을 통한 테스트 기반 계약 설계로 '가짜 성공' 리스크 제거

Yang Goufang2026년 7월 1일2intermediate

Context

단일 AI Agent가 테스트 작성과 구현을 동시에 수행할 때 발생하는 자기 검증 오류와 신뢰성 부족 문제 분석. 모델이 정의한 정답을 스스로 판정함으로써 발생하는 '가짜 성공' 리스크를 구조적으로 분리할 필요성 제기.

Technical Solution

  • 역할 분리를 통한 테스트의 계약화: Codex(테스트 작성) $\rightarrow$ Grok(구현) $\rightarrow$ Claude(검수)로 이어지는 단방향 파이프라인 설계
  • Immutable Test Constraint 적용: 구현 단계에서 테스트 코드를 수정 불가능한 규격으로 고정하여 구현체가 테스트를 추종하게 강제
  • Red-Green-Refactor Cycle의 엄격한 분리: 컴파일은 가능하나 단언(Assertion)에서 실패하는 RED 상태를 먼저 확보하여 구현의 명확한 목표 설정
  • 독립적 검증 레이어 구축: 구현자의 자술서가 아닌 실제 테스트 실행 결과와 Diff 분석을 통한 Claude의 최종 승인 단계 도입
  • 환경 격리를 통한 Side Effect 방지: git worktree 기반의 격리된 환경에서 검증을 수행하여 메인 코드베이스 오염 방지

1. AI Agent 간 교차 검증을 위해 테스트 작성자와 구현자를 서로 다른 모델로 설정했는가?

2. 구현 단계에서 테스트 코드를 수정할 수 없도록 권한을 제한했는가?

3. '테스트 통과'라는 결과 외에 실제 Diff와 런타임 로그를 대조하는 독립 검수 단계가 존재하는가?

4. CI/CD 파이프라인 내에서 RAII 패턴 등을 통해 공유 DB의 Panic-safe 정리가 보장되는가?

5. API Key 등 민감 정보가 Agent의 argv나 로그에 노출되지 않도록 환경 변수 로드 방식을 채택했는가?

원문 읽기