Eval 기반 Skill 최적화로 Pass Rate 84%에서 100% 달성

Skills Without Evals Are Just Markdown and Hope

Daniel Sogl2026년 5월 1일14분intermediate

AI 요약

Context

LLM Agent Skill 도입 시 실제 성능 향상 여부와 호출 트리거링 정확도를 측정할 객관적 지표 부재. 단순 Prompt 추가 방식은 모델의 기본 능력과 중복되어 불필요한 Token 비용을 발생시키고 시스템 효율을 저해하는 한계 존재.

Technical Solution

Test Prompt, Assertion, Dual Configuration으로 구성된 Eval Suite를 사전 설계하여 Skill의 순수 가치 측정
Base Model과 Skill 적용 모델 간의 A/B Benchmark를 통한 Capability Uplift 정밀 분석
성능 향상이 없는 구간을 식별하여 Skill 내용을 제거하는 Trim 과정으로 Token 낭비 최소화
실사용자 요청 문구와 Skill 설명 간의 일치도를 검증하는 Description Optimizer 루프 적용
단순 API 지식 전달이 아닌 팀 내 관습과 특정 구현 패턴을 강제하는 Encoded Preference 구조 설계
100% Pass Rate 도달 시 이를 Saturation Signal로 정의하고 테스트 케이스 난이도를 높이는 반복 개선 프로세스 구축

실천 포인트

- Skill 도입 전 실제 사용자 시나리오 기반의 Assertion 기반 테스트 셋 구축 - Base Model 대비 성능 향상이 없는 Skill 섹션은 Token 절감을 위해 즉시 제거 - Pass Rate 100% 달성 시 성공이 아닌 테스트 케이스 부족으로 판단하고 난이도 상향 - 모델 업데이트마다 Capability Benchmark를 재실행하여 Skill의 유효성 지속 검증

태그

#Agent Skill #LLM Eval #Encoded Preference #Token Optimization #A/B Testing

원문 읽기