피드로 돌아가기
Dev.toAI/ML
원문 읽기
Claude Wrote a Cosmology Solver in Days — Patterns a Game Dev Wants to Steal
Anthropic이 Claude에게 목표와 구조화된 메모리(CLAUDE.md, CHANGELOG.md)를 제공해 며칠 내에 우주론 Boltzmann 해석기를 자가 검증으로 sub-percent 정확도 구현
AI 요약
Context
AI 에이전트를 다중 세션에 걸쳐 작업하면 매 세션마다 컨텍스트가 리셋되어 이전 세션에서 실패한 접근 방식을 반복하게 된다. 또한 에이전트가 프로젝트 규칙만 알고 목표와 성공 기준을 모르면 판단이 필요한 순간에 방향을 잃는다.
Technical Solution
- CLAUDE.md를 규칙 모음이 아닌 설계 문서로 운영: 프로젝트 최종 목표, 성공 기준, 설계 결정의 근거를 명시하고 에이전트가 매 세션마다 읽도록 강제
- CHANGELOG.md로 장기 메모리 구현: 현재 상태, 완료된 작업, 실패한 접근 방식과 실패 이유, 체크포인트별 정확도 테이블을 기록해 새 세션 시작 시 에이전트가 즉시 상황 파악
- 참조 구현(test oracle) 도입: CLASS(우주론 참조 구현)처럼 정답이 존재하는 시스템을 기준점으로 설정하고 에이전트가 자동으로 검증
- Ralph loop 패턴 적용: 측정 가능한 성공 기준(수치)을 명확히 정의하고 에이전트가 이를 달성할 때까지 반복하도록 강제
- 다양한 입력값으로 테스트 커버리지 명시: CLAUDE.md에 "여러 입력값으로 테스트하라"를 명확히 기술해 특정 조건에서만 작동하는 코드 방지
Impact
하나의 JAX 구현 사례에서 sub-percent 정확도 달성, 비도메인 전문가가 최소한의 지도로 며칠 내 완성
Key Takeaway
AI 에이전트 작업에서는 "어떻게 일하는가"의 규칙만으로는 부족하며, "왜 이 목표를 추구하는가"를 명시한 설계 문서와 세션 간 학습 기록이 에이전트의 자율성과 정확성을 결정한다. 구조화된 목표(수치 기반), 지속 메모리, 자동 검증, 명시적 테스트 커버리지를 모두 갖춰야 에이전트를 며칠 동안 혼자 두고 신뢰할 수 있다.
실천 포인트
AI 에이전트와 협업하는 모든 팀에서 CLAUDE.md에 '프로젝트 목표', '성공 기준(정량적)', '설계 근거'를 규칙 위에 먼저 명시하고, CHANGELOG.md에 세션마다 '시도한 접근 → 결과 → 실패 이유'를 기록하면 다음 세션에서 에이전트가 반복된 실수를 피하고 올바른 방향으로 진행할 수 있다.