Claude Opus가 CUDA 커널 작성 능력을 Agent Skill로 추출해 경량 오픈소스 모델에 이전하고, upskill 도구로 모델별 정확도와 토큰 사용량을 평가

We Got Claude to Build CUDA Kernels and teach open models!

2026년 1월 28일9분intermediate

AI 요약

Context

소형 오픈소스 모델은 CUDA 커널 작성처럼 전문화되고 복잡한 작업에서 성능이 낮으며, 대형 모델의 능력을 소형 모델로 직접 이전할 수 있는 표준화된 방법이 없었다.

Technical Solution

Claude Opus 4.5가 대화형으로 CUDA 커널을 작성하고 실행 추적(trace)을 내보내기: 코드 생성, 검증, 문서 연결 과정 기록
실행 추적으로부터 Agent Skill 파일 생성: 마크다운 형식의 SKILL.md 파일로 구조화하여 지식 캡슐화
upskill 도구로 Skill 검증 및 테스트 케이스 자동 생성: 입출력 쌍(input/output pairs)으로 작업 이해도 확인
생성된 Skill을 경량 모델(Haiku, Kimi-K2-Thinking 등)에 적용 후 성능 비교: {agent}/skills/{skill_name}/SKILL.md 경로에 복사
upskill eval 명령으로 여러 모델의 정확도와 토큰 사용량을 동시 측정: Pass Rate, Avg Assertions, Avg Tokens 메트릭 수집

Impact

Haiku 모델: 기본 Skill 적용 시 Pass Rate 80% (4/5), 1,250 토큰 평균 소비
Kimi-K2-Thinking 모델: 기본 Skill 적용 시 Pass Rate 100% (5/5), 1,890 토큰 평균 소비
모델별로 Skill의 효과가 상이: 일부 모델은 정확도는 유지하면서 토큰 사용량 감소, 다른 모델은 토큰 증가
Claude Opus 4.5는 Skill 적용 시 토큰 사용량 증가로 인해 이득 없음

Key Takeaway

전문화된 작업에서 대형 모델이 학습한 능력을 표준화된 Skill 파일 형식으로 추출하면, 경량 모델에 이전하면서 각 모델별로 정확도와 비용 트레이드오프를 측정할 수 있다. 이를 통해 특정 작업에 대해 비용 효율적인 모델 조합을 찾을 수 있다.

실천 포인트

도메인 특화 작업(CUDA 커널 작성, 내부 도구 사용 등)을 수행하는 팀에서는 upskill과 같은 검증 도구를 활용해 대형 모델이 생성한 Skill을 경량 모델에 적용한 후 모델별 Pass Rate와 평균 토큰 사용량을 비교 측정하면, API 비용을 크게 절감하면서도 요구되는 정확도를 유지하는 최적 모델을 선택할 수 있다.

태그

#Cost Optimization #upskill #Model Transfer #Agent Skills #CUDA

원문 읽기