Claude가 며칠 만에 우주론 코드를 짰다 — 게임 개발자가 훔치고 싶은 패턴들

Anthropic이 Claude를 며칠 동안 자율 작업하게 만들기 위해 CLAUDE.md, CHANGELOG.md, 테스트 오라클, Ralph loop 4가지 구조를 설계해 우주론 코드 개발 시간을 대폭 단축

김이더2026년 3월 25일12분intermediate

AI 요약

Context

AI 에이전트에게 복잡한 작업을 맡기면 세션이 바뀔 때마다 이전 진행 상황을 잃어버리고, 같은 실패를 반복하며, 목표 달성 전에 임의로 중단하려는 문제가 있었다.

Technical Solution

CLAUDE.md 재설계: 규칙 나열만 하던 기존 방식에서 프로젝트 최종 목표, 성공 기준, 설계 결정의 근거를 모두 포함하도록 변경 (예: "5개 소스 파싱 성공률 95% 이상 달성")
CHANGELOG.md 도입: 에이전트가 세션마다 완료된 작업, 실패한 접근 방식과 실패 이유를 기록하는 장기 기억 시스템 도입
테스트 오라클 설계: 기존 참조 구현체(CLASS 소스 코드, 기존 HuggingFace Papers 파이프라인)와의 출력 비교로 정확도 측정 및 다양한 입력으로 커버리지 확보
Ralph loop 구현: 에이전트가 "작업 완료"를 주장하면 다시 컨텍스트로 돌려보내 실제 성공 기준(수치 기반) 달성을 검증하는 최대 20회 반복 루프

Key Takeaway

에이전트 자율 작업의 성패는 명확한 목표 정의, 세션 간 메모리 유지, 수치 기반 자가 검증, 강제 반복이 갖춰져야 하며, 이 네 가지가 없으면 30분마다 상태를 확인해야 한다는 점이 핵심이다.

실천 포인트

AI Signal 피드 파이프라인처럼 다단계 작업을 에이전트에 맡길 때, CLAUDE.md에 정량적 성공 기준("5개 소스 전부 파싱 성공률 95% 이상")을 명시하고, 각 세션의 시도와 실패 이유를 CHANGELOG.md에 기록하며, 기존 테스트 스위트를 참조 오라클로 지정한 후 Ralph loop로 "성공 기준 달성 시까지 반복"을 강제하면 에이전트가 중간에 멈추지 않고 완료까지 자율 작업할 수 있다.

태그

#AI Agent #Prompt Engineering #Autonomous Systems #LLM-Workflow

원문 읽기