피드로 돌아가기
InfoQAI/ML
원문 읽기
Planning·Generation·Evaluation 분리로 구현한 고신뢰도 AI 개발 프레임워크
Anthropic’s Designs Three-Agent Harness Supports Long-Running Full-Stack AI Development
AI 요약
Context
장시간 실행되는 자율 AI 개발 과정의 Context Loss 문제. 생성 모델의 주관적 자기 평가로 인한 품질 저하 현상. 세션 유지 시간이 길어질수록 발생하는 조기 작업 종료 및 일관성 결여 문제.
Technical Solution
- Planning, Generation, Evaluation 역할을 엄격히 분리한 Three-Agent Harness 구조
- Context Compaction 대신 Context Reset과 정형화된 Handoff Artifact를 활용한 상태 전이 방식
- Playwright MCP 기반의 실시간 페이지 탐색 및 인터페이스 상호작용을 통한 동적 검증 프로세스
- Few-shot 예시와 4가지 정량적 기준(Design Quality, Originality, Craft, Functionality)을 적용한 전용 Evaluator Agent 설계
- JSON Feature Spec, 강제 테스트, 커밋 단위 진행 관리를 통한 세션 간 연속성 확보 전략
- 작업 의존성에 따른 에이전트의 병렬 및 순차 실행을 지원하는 분산 처리 워크플로우
Impact
- 1회 실행당 5회에서 15회 사이의 반복 최적화 사이클 수행
- 최대 4시간에 이르는 장기 세션 동안의 자율적 개발 프로세스 유지
Key Takeaway
작업 수행 주체와 평가 주체를 물리적으로 분리하는 설계가 AI 출력물의 객관성과 신뢰성을 확보하는 핵심 레버임.
실천 포인트
장기 AI 워크플로우 설계 시 Context 보존보다 정형화된 상태 전달 객체(Artifact) 정의에 집중할 것