피드로 돌아가기
An AI Agent Found 20 ML Improvements Karpathy Had Missed in 20 Years
Dev.toDev.to
AI/ML

Andrej Karpathy의 autoresearch 에이전트가 630줄 Python으로 ML 트레이닝 루프를 자동 최적화해 20년간 미발견한 11% 속도 개선을 2일 내 발견

An AI Agent Found 20 ML Improvements Karpathy Had Missed in 20 Years

Claudio Basckeira2026년 3월 28일3intermediate

Context

기존 ML 연구는 수동으로 하이퍼파라미터를 조정하고 트레이닝 실험을 반복해야 했으며, Karpathy 자신도 같은 코드베이스에서 20년간 일하면서도 최적화 기회를 놓쳤다.

Technical Solution

  • 단일 파일(program.md)에 최적화 목표, 제약조건, 중지 기준을 자연어로 정의: 테스트 깨뜨리기 금지, 메모리 증가 금지 등
  • AI 에이전트가 루프 반복으로 실행: 트레이닝 스크립트 읽기 → 가설 형성 → 코드 수정 → 5분 단위 트레이닝 실행 → 단일 스칼라 메트릭으로 평가
  • 외부 도구 호출, 인터넷 접근, 벡터 데이터베이스 없이 순수 로컬 루프만 사용
  • 스칼라 메트릭 기반만 작동: 트레이닝 손실, 렌더링 시간, 메모리 할당, 테스트 통과율 등 정량적 비교 가능한 지표에 한정

Impact

  • Karpathy 실험: 단일 GPU로 2일간 700개 실험 실행, 11% 트레이닝 속도 개선 달성
  • Shopify 실험: 하룻밤 37개 실험으로 내부 데이터에서 19% 성능 향상 달성
  • Shopify Liquid 템플릿 엔진 적용: 렌더링 시간 53% 단축, 메모리 할당 61% 감소, 93개 자동 커밋 생성, 974개 단위 테스트 모두 통과
  • GitHub 저장소 첫 주일 만에 42,000 스타 획득

Key Takeaway

"program synthesis via experiment" 패턴은 명확한 단일 스칼라 메트릭이 있는 도메인(ML 최적화, 컴파일러 튜닝, 하이퍼파라미터 검색)에만 적용 가능하며, 자연어 품질이나 인간 판단이 필요한 영역에서는 인간이 여전히 중심이다.


ML 트레이닝을 포함한 반복 실험 워크플로우가 있는 엔지니어링 팀은 program.md 패턴을 사용해 에이전트 지시사항, 제약조건, 중지 기준을 한 파일로 정의한 후 자동 탐색을 실행하면, 수동 하이퍼파라미터 튜닝 전에 측정 가능한 메트릭 개선을 빠르게 발견할 수 있다.

원문 읽기