피드로 돌아가기
Token-level eval harness for tool-calling agents: what we wired up
Dev.toDev.to
AI/ML

Token-level Eval Harness 도입을 통한 LLM Agent 회귀 분석 정밀도 강화

Token-level eval harness for tool-calling agents: what we wired up

Marcus Chen2026년 5월 26일5advanced

Context

단순 Pass/Fail 기반의 Evaluation 체계로 인해 Tool selection 오류 및 Confabulation 현상을 감지하지 못한 한계 발생. 최종 응답의 외형적 정답 여부만 확인하여 실제 내부 추론 과정의 결함이 은폐되는 병목 지점 파악.

Technical Solution

  • Tool selection accuracy, Argument F1, Recovery rate, Trajectory length delta로 구성된 4대 정밀 시그널 체계 구축
  • JSON Exact-match의 취약점을 해결하기 위해 토큰 기반으로 정규화 후 계산하는 Argument F1 로직 설계
  • Bifrost Gateway 도입을 통한 모델 간 추상화 레이어 구축으로 단일 엔드포인트에서 다중 모델(GPT-4.1, Claude, Qwen3 등) 교차 검증 수행
  • 가상 키(Virtual Key) 기반의 Budget Cap 설정을 통해 야간 배치 평가 시 발생 가능한 비용 폭주 방지
  • Prometheus 네이티브 통합을 통한 지연 시간 및 에러 률의 실시간 모니터링 환경 조성

Impact

  • 단순 Pass rate(73%)에 가려졌던 Tokenizer regression을 Argument F1 수치 하락(0.84 → 0.61)을 통해 정밀하게 식별
  • Bifrost 도입을 통한 p50 지연 시간 ~1ms 수준의 최적화 달성
  • 1,200개의 Trajectory 수동 레이블링을 통한 정밀 Evaluation Gold Set 확보

1. Agent 평가 시 최종 결과값이 아닌 단계별 Tool 호출 인자(Argument)의 토큰 유사도를 측정하고 있는가?

2. LLM Provider 교체 시 코드 수정 없이 모델을 스위칭할 수 있는 추상화 Gateway 레이어가 존재하는가?

3. Eval Harness 실행 시 예상치 못한 비용 발생을 차단할 Budget Cap 및 Rate Limiting 설정이 되어 있는가?

4. Semantic Caching이 평가 결과에 왜곡을 주지 않도록 Eval Run 시에만 명시적으로 비활성화하고 있는가?

원문 읽기