피드로 돌아가기
Dev.toAI/ML
원문 읽기
Token-level Eval Harness 도입을 통한 LLM Agent 회귀 분석 정밀도 강화
Token-level eval harness for tool-calling agents: what we wired up
AI 요약
Context
단순 Pass/Fail 기반의 Evaluation 체계로 인해 Tool selection 오류 및 Confabulation 현상을 감지하지 못한 한계 발생. 최종 응답의 외형적 정답 여부만 확인하여 실제 내부 추론 과정의 결함이 은폐되는 병목 지점 파악.
Technical Solution
- Tool selection accuracy, Argument F1, Recovery rate, Trajectory length delta로 구성된 4대 정밀 시그널 체계 구축
- JSON Exact-match의 취약점을 해결하기 위해 토큰 기반으로 정규화 후 계산하는 Argument F1 로직 설계
- Bifrost Gateway 도입을 통한 모델 간 추상화 레이어 구축으로 단일 엔드포인트에서 다중 모델(GPT-4.1, Claude, Qwen3 등) 교차 검증 수행
- 가상 키(Virtual Key) 기반의 Budget Cap 설정을 통해 야간 배치 평가 시 발생 가능한 비용 폭주 방지
- Prometheus 네이티브 통합을 통한 지연 시간 및 에러 률의 실시간 모니터링 환경 조성
Impact
- 단순 Pass rate(73%)에 가려졌던 Tokenizer regression을 Argument F1 수치 하락(0.84 → 0.61)을 통해 정밀하게 식별
- Bifrost 도입을 통한 p50 지연 시간 ~1ms 수준의 최적화 달성
- 1,200개의 Trajectory 수동 레이블링을 통한 정밀 Evaluation Gold Set 확보
실천 포인트
1. Agent 평가 시 최종 결과값이 아닌 단계별 Tool 호출 인자(Argument)의 토큰 유사도를 측정하고 있는가?
2. LLM Provider 교체 시 코드 수정 없이 모델을 스위칭할 수 있는 추상화 Gateway 레이어가 존재하는가?
3. Eval Harness 실행 시 예상치 못한 비용 발생을 차단할 Budget Cap 및 Rate Limiting 설정이 되어 있는가?
4. Semantic Caching이 평가 결과에 왜곡을 주지 않도록 Eval Run 시에만 명시적으로 비활성화하고 있는가?