9차원 평가 지표와 Git Ratchet 기반의 AI Skill 무한 진화 시스템

Open Source Project of the Day (#83): Darwin Skill - A Karpathy-Inspired 'Ratchet' System for Infinite AI Skill Evolution

WonderLab2026년 6월 2일3분intermediate

AI 요약

Context

AI Agent의 SKILL.md 파일 유지보수 과정에서 발생하는 수동 프롬프트 튜닝의 비효율성과 성능 가시성 부족 문제 발생. LLM 자체 평가의 편향성으로 인해 최적화 결과의 신뢰도를 보장하기 어려운 한계점 존재.

Microsoft Research의 SkillOpt 및 SkillLens 기반 9-Dimensional Evaluation Rubric을 도입하여 정성적 프롬프트를 정량적 수치로 변환
단일 변수 제어를 위해 한 번에 하나의 차원만 수정하는 Targeted Improvement 프로세스 설계
성능 하락 시 자동 Git Revert를 수행하는 Ratchet Mechanism을 통해 회귀 방지 및 최적 상태 유지
AI의 효율성과 인간의 안전 경계 설정을 결합한 Human-in-the-Loop (HITL) 체크포인트 구조 적용
Karpathy의 autoresearch 로직을 벤치마킹하여 SKILL.md를 학습 대상 객체로 정의하고 자동 실험 루프 구축
test-prompts.json 기반의 검증 단계를 통해 실제 실행 성능 중심의 Outcome-Oriented 평가 체계 구현

실천 포인트

1. 프롬프트 최적화 시 LLM의 자기 평가 대신 정량적 평가 매트릭스를 구축했는가

2. 최적화 과정에서 성능 회귀를 방지하기 위한 자동 롤백(Rollback) 메커니즘이 존재하는가

3. 다수의 변수를 동시에 수정하지 않고 단일 차원별 개선을 통해 인과관계를 명확히 했는가

4. 완전 자동화 대신 크리티컬 패스에 HITL 검증 단계를 포함하여 안전성을 확보했는가

태그