Tool-Call Accuracy 1.0의 함정을 극복한 4단계 정밀 Eval Stack 설계

Tool-Call Accuracy Is Lying to You: A Four-Layer Eval Stack for Agents

Nikhil Pareek2026년 6월 3일7분advanced

AI 요약

Context

단순 Tool-Selection 정확도 측정 방식은 Argument 오류나 Result 활용 실패를 감지하지 못하는 한계 존재. Tool 선택 성공이 Task 완수를 보장하지 않는 Execution Gap으로 인해 실제 Production 환경의 장애 원인 파악에 수일이 소요되는 병목 발생.

Technical Solution

Layer 1 Tool Selection: F1 Score 기반의 도구 매칭 검증 및 Irrelevance Bucket 도입을 통한 불필요한 호출 억제 설계
Layer 2 Argument Extraction: Pydantic 기반의 Deterministic Schema Validation 후 LLM Judge를 통한 Semantic Correctness 교차 검증
Layer 3 Result Utilization: Tool Payload를 Context로 설정한 Groundedness 평가로 모델의 환각 및 데이터 왜곡 방지
Layer 4 Error Recovery: Trajectory-level 분석을 통한 4xx 에러 대응 로직 및 Retry Policy의 적절성 검증
Pass^k Consistency Slice: 고난도 케이스의 반복 실행을 통한 Planner의 안정성과 Tool의 성능을 분리 분석
Stratified Private Eval Set: 실제 Production 실패 Trace를 반영한 계층별 평가 데이터셋 구축으로 배포 게이트 최적화

실천 포인트

- Task-completion 같은 통합 지표 대신 4개 계층(선택, 추출, 활용, 복구)으로 분리된 개별 Rubric 적용 - Schema Validation 통과 후에도 User Intent와 일치하는지 Semantic Check 단계 추가 - Tool 결과값이 최종 응답에 정확히 반영되었는지 Groundedness 기반의 Payload 검증 수행 - 3~6회 사이의 Retry Cap 설정 및 Trajectory 분석을 통한 무한 루프 방지 로직 검토

태그

#Evaluation Stack #Trajectory Analysis #LLM-as-judge #Tool Calling #Groundedness

원문 읽기