피드로 돌아가기
AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다
GeekNewsGeekNews
AI/ML

AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다

현실적 스킬 검색 한계로 인한 AI 에이전트 성능 급락 및 Recall@5 65.5% 달성

davespark2026년 4월 16일2intermediate

Context

기존 SKILLSBENCH의 이상적 조건 제공으로 인한 AI 에이전트 성능 과대평가 문제 발생. 실제 환경의 불완전한 스킬 검색 및 선택 과정이 성능 병목 지점으로 작용함.

Technical Solution

  • 스킬 직접 제공부터 대규모 풀 검색까지 6단계 현실적 시나리오 설계를 통한 성능 검증
  • 34,198개의 오픈소스 스킬 데이터셋 구축을 통한 벤치마크 환경의 실효성 확보
  • 검색 단계의 Recall@5 지표 분석을 통한 스킬 회수율과 최종 실행 성공률의 상관관계 파악
  • 과제별 스킬 정제 및 생성을 통한 Context 최적화 전략 적용
  • AGENTS.md 방식의 정적 컨텍스트 주입을 통한 검색 의존도 제거 및 안정성 확보 방안 검토

Impact

  • Claude Opus의 스킬 호출 정확도 49% 수준으로 하락
  • 상위 5개 스킬 검색 시 최대 Recall@5 65.5% 기록
  • 스킬 정제 전략 적용 시 Claude 성능 40.1%에서 48.2%로 향상

1. Retrieval 단계의 Recall 지표가 낮을 경우 스킬 제공량을 늘리기보다 정제된 소수 스킬의 품질 우선 확보

2. 복잡한 Retrieval-Augmented 구조보다 AGENTS.md 형태의 정적 가이드라인 제공을 통한 Baseline 성능 검증

3. 모델의 추론 역량에 맞춘 스킬 생태계 설계 및 오프라인 정제 프로세스 도입

원문 읽기