Andrej Karpathy가 AI 에이전트 자동 최적화 도구 autoresearch를 공개해 코드 최적화의 인간 병목을 제거하고 시간당 12회 실험을 자동 실행

"The human might be asleep." One line in Karpathy's program.md started 100 automatic experiments per night.

nasuy2026년 3월 24일9분intermediate

AI 요약

Context

코드 최적화는 아이디어 고안, 구현, 테스트, 결과 검토 과정을 인간이 반복해야 하는 구조로 진행되어 시간이 소모된다.

Technical Solution

3개 파일 기반 아키텍처: program.md(최적화 목표 및 제약사항 정의), train.py(에이전트가 편집하는 실험 코드), prepare.py(평가 기준 고정)
5분 고정 실험 시간: 모든 실험을 동일한 시간 예산으로 제한해 공정한 결과 비교 가능
자동 git 관리: 메트릭 개선 시 자동 커밋, 악화 시 자동 리셋으로 인간 개입 제거
명확한 변경 경계 설정: 에이전트가 편집 가능한 범위(train.py)와 고정 범위(prepare.py) 명확히 분리
Shopify 적용 사례의 3단계 검증: 974개 유닛 테스트 → liquid-spec 준수 확인 → 성능 벤치마크

Impact

Karpathy: H100 1대에서 10.5시간 동안 126개 실험 실행, val_bpb 0.9979에서 0.9697로 감소 (23개 실험 채택, 약 18%)
Shopify: 약 120개 실험으로 93개 커밋 생성, parse 시간 61% 감소, render 시간 20% 감소, 전체 parse+render 시간 53% 감소
Shopify: 객체 할당 62,620에서 24,530으로 61% 감소

Key Takeaway

자동 최적화 성공은 AI 모델 성능이 아닌 3가지 설계 선택에 달려 있다: 측정 가능한 메트릭 정의, 에이전트의 변경 범위 제한, 변경 사항을 보호하는 테스트 및 제약사항 구축. 측정 가능한 메트릭과 충분한 테스트 스위트가 있다면 밤새 AI가 100개 이상의 실험을 자동 실행할 수 있다.

실천 포인트

성능 최적화가 필요한 백엔드 서비스나 데이터 처리 파이프라인에서 autoresearch 패턴을 적용하려면, 먼저 최적화할 명확한 메트릭(레이턴시, 처리량, 메모리 사용량 등)과 회귀를 방지하는 974개 유닛 테스트 수준의 검증 체계를 구축한 후, program.md에 '에이전트는 수동으로 멈출 때까지 계속 작동한다'는 명령어를 추가하면 야간에 시간당 12회씩 약 100회 자동 실험을 통해 최적화 발견을 가속화할 수 있다.

태그

#AI-assisted optimization #metrics-driven development #Autoresearch #automated experimentation

원문 읽기