AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다

현실적 스킬 검색 한계로 인한 AI 에이전트 성능 급락 및 Recall@5 65.5% 달성

davespark2026년 4월 16일2분intermediate

AI 요약

Context

기존 SKILLSBENCH의 이상적 조건 제공으로 인한 AI 에이전트 성능 과대평가 문제 발생. 실제 환경의 불완전한 스킬 검색 및 선택 과정이 성능 병목 지점으로 작용함.

실천 포인트

1. Retrieval 단계의 Recall 지표가 낮을 경우 스킬 제공량을 늘리기보다 정제된 소수 스킬의 품질 우선 확보

2. 복잡한 Retrieval-Augmented 구조보다 AGENTS.md 형태의 정적 가이드라인 제공을 통한 Baseline 성능 검증

3. 모델의 추론 역량에 맞춘 스킬 생태계 설계 및 오프라인 정제 프로세스 도입

태그