피드로 돌아가기
Dev.toAI/ML
원문 읽기
Eval 기반 Skill 최적화로 Pass Rate 84%에서 100% 달성
Skills Without Evals Are Just Markdown and Hope
AI 요약
Context
LLM Agent Skill 도입 시 실제 성능 향상 여부와 호출 트리거링 정확도를 측정할 객관적 지표 부재. 단순 Prompt 추가 방식은 모델의 기본 능력과 중복되어 불필요한 Token 비용을 발생시키고 시스템 효율을 저해하는 한계 존재.
Technical Solution
- Test Prompt, Assertion, Dual Configuration으로 구성된 Eval Suite를 사전 설계하여 Skill의 순수 가치 측정
- Base Model과 Skill 적용 모델 간의 A/B Benchmark를 통한 Capability Uplift 정밀 분석
- 성능 향상이 없는 구간을 식별하여 Skill 내용을 제거하는 Trim 과정으로 Token 낭비 최소화
- 실사용자 요청 문구와 Skill 설명 간의 일치도를 검증하는 Description Optimizer 루프 적용
- 단순 API 지식 전달이 아닌 팀 내 관습과 특정 구현 패턴을 강제하는 Encoded Preference 구조 설계
- 100% Pass Rate 도달 시 이를 Saturation Signal로 정의하고 테스트 케이스 난이도를 높이는 반복 개선 프로세스 구축
실천 포인트
- Skill 도입 전 실제 사용자 시나리오 기반의 Assertion 기반 테스트 셋 구축 - Base Model 대비 성능 향상이 없는 Skill 섹션은 Token 절감을 위해 즉시 제거 - Pass Rate 100% 달성 시 성공이 아닌 테스트 케이스 부족으로 판단하고 난이도 상향 - 모델 업데이트마다 Capability Benchmark를 재실행하여 Skill의 유효성 지속 검증