Token-level Eval Harness 도입을 통한 LLM Agent 회귀 분석 정밀도 강화

Token-level eval harness for tool-calling agents: what we wired up

Marcus Chen2026년 5월 26일5분advanced

AI 요약

Context

단순 Pass/Fail 기반의 Evaluation 체계로 인해 Tool selection 오류 및 Confabulation 현상을 감지하지 못한 한계 발생. 최종 응답의 외형적 정답 여부만 확인하여 실제 내부 추론 과정의 결함이 은폐되는 병목 지점 파악.

Tool selection accuracy, Argument F1, Recovery rate, Trajectory length delta로 구성된 4대 정밀 시그널 체계 구축
JSON Exact-match의 취약점을 해결하기 위해 토큰 기반으로 정규화 후 계산하는 Argument F1 로직 설계
Bifrost Gateway 도입을 통한 모델 간 추상화 레이어 구축으로 단일 엔드포인트에서 다중 모델(GPT-4.1, Claude, Qwen3 등) 교차 검증 수행
가상 키(Virtual Key) 기반의 Budget Cap 설정을 통해 야간 배치 평가 시 발생 가능한 비용 폭주 방지
Prometheus 네이티브 통합을 통한 지연 시간 및 에러 률의 실시간 모니터링 환경 조성

단순 Pass rate(73%)에 가려졌던 Tokenizer regression을 Argument F1 수치 하락(0.84 → 0.61)을 통해 정밀하게 식별
Bifrost 도입을 통한 p50 지연 시간 ~1ms 수준의 최적화 달성
1,200개의 Trajectory 수동 레이블링을 통한 정밀 Evaluation Gold Set 확보

실천 포인트

1. Agent 평가 시 최종 결과값이 아닌 단계별 Tool 호출 인자(Argument)의 토큰 유사도를 측정하고 있는가?

2. LLM Provider 교체 시 코드 수정 없이 모델을 스위칭할 수 있는 추상화 Gateway 레이어가 존재하는가?

3. Eval Harness 실행 시 예상치 못한 비용 발생을 차단할 Budget Cap 및 Rate Limiting 설정이 되어 있는가?

4. Semantic Caching이 평가 결과에 왜곡을 주지 않도록 Eval Run 시에만 명시적으로 비활성화하고 있는가?

태그