피드로 돌아가기
GeekNewsAI/ML
원문 읽기
AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다
현실적 스킬 검색 한계로 인한 AI 에이전트 성능 급락 및 Recall@5 65.5% 달성
AI 요약
Context
기존 SKILLSBENCH의 이상적 조건 제공으로 인한 AI 에이전트 성능 과대평가 문제 발생. 실제 환경의 불완전한 스킬 검색 및 선택 과정이 성능 병목 지점으로 작용함.
Technical Solution
- 스킬 직접 제공부터 대규모 풀 검색까지 6단계 현실적 시나리오 설계를 통한 성능 검증
- 34,198개의 오픈소스 스킬 데이터셋 구축을 통한 벤치마크 환경의 실효성 확보
- 검색 단계의 Recall@5 지표 분석을 통한 스킬 회수율과 최종 실행 성공률의 상관관계 파악
- 과제별 스킬 정제 및 생성을 통한 Context 최적화 전략 적용
- AGENTS.md 방식의 정적 컨텍스트 주입을 통한 검색 의존도 제거 및 안정성 확보 방안 검토
Impact
- Claude Opus의 스킬 호출 정확도 49% 수준으로 하락
- 상위 5개 스킬 검색 시 최대 Recall@5 65.5% 기록
- 스킬 정제 전략 적용 시 Claude 성능 40.1%에서 48.2%로 향상
실천 포인트
1. Retrieval 단계의 Recall 지표가 낮을 경우 스킬 제공량을 늘리기보다 정제된 소수 스킬의 품질 우선 확보
2. 복잡한 Retrieval-Augmented 구조보다 AGENTS.md 형태의 정적 가이드라인 제공을 통한 Baseline 성능 검증
3. 모델의 추론 역량에 맞춘 스킬 생태계 설계 및 오프라인 정제 프로세스 도입