Anthropic이 Claude에게 목표와 구조화된 메모리(CLAUDE.md, CHANGELOG.md)를 제공해 며칠 내에 우주론 Boltzmann 해석기를 자가 검증으로 sub-percent 정확도 구현

Claude Wrote a Cosmology Solver in Days — Patterns a Game Dev Wants to Steal

김이더2026년 3월 25일9분intermediate

AI 요약

Context

AI 에이전트를 다중 세션에 걸쳐 작업하면 매 세션마다 컨텍스트가 리셋되어 이전 세션에서 실패한 접근 방식을 반복하게 된다. 또한 에이전트가 프로젝트 규칙만 알고 목표와 성공 기준을 모르면 판단이 필요한 순간에 방향을 잃는다.

Technical Solution

CLAUDE.md를 규칙 모음이 아닌 설계 문서로 운영: 프로젝트 최종 목표, 성공 기준, 설계 결정의 근거를 명시하고 에이전트가 매 세션마다 읽도록 강제
CHANGELOG.md로 장기 메모리 구현: 현재 상태, 완료된 작업, 실패한 접근 방식과 실패 이유, 체크포인트별 정확도 테이블을 기록해 새 세션 시작 시 에이전트가 즉시 상황 파악
참조 구현(test oracle) 도입: CLASS(우주론 참조 구현)처럼 정답이 존재하는 시스템을 기준점으로 설정하고 에이전트가 자동으로 검증
Ralph loop 패턴 적용: 측정 가능한 성공 기준(수치)을 명확히 정의하고 에이전트가 이를 달성할 때까지 반복하도록 강제
다양한 입력값으로 테스트 커버리지 명시: CLAUDE.md에 "여러 입력값으로 테스트하라"를 명확히 기술해 특정 조건에서만 작동하는 코드 방지

Impact

하나의 JAX 구현 사례에서 sub-percent 정확도 달성, 비도메인 전문가가 최소한의 지도로 며칠 내 완성

Key Takeaway

AI 에이전트 작업에서는 "어떻게 일하는가"의 규칙만으로는 부족하며, "왜 이 목표를 추구하는가"를 명시한 설계 문서와 세션 간 학습 기록이 에이전트의 자율성과 정확성을 결정한다. 구조화된 목표(수치 기반), 지속 메모리, 자동 검증, 명시적 테스트 커버리지를 모두 갖춰야 에이전트를 며칠 동안 혼자 두고 신뢰할 수 있다.

실천 포인트

AI 에이전트와 협업하는 모든 팀에서 CLAUDE.md에 '프로젝트 목표', '성공 기준(정량적)', '설계 근거'를 규칙 위에 먼저 명시하고, CHANGELOG.md에 세션마다 '시도한 접근 → 결과 → 실패 이유'를 기록하면 다음 세션에서 에이전트가 반복된 실수를 피하고 올바른 방향으로 진행할 수 있다.

태그

#Long-Context #AI Agents #Self-verification #Workflow Automation

원문 읽기