Heuristic detectors로 7,000개 agent traces 분석 시 LLM judges 대비 5.5x 정확도 향상 달성함
Heuristic Detectors vs LLM Judges: What We Learned Analyzing 7,000 Agent Traces
AI 요약
Context
기존 LLM-as-judge 방식은 유연하지만 비용이 높고 구조적 실패 탐지에서 전용 heuristics보다 성능이 낮음. Pisama에서 18개 production-grade heuristic detectors를 7,212개 labeled entries로 calibration하고 2개 공개 benchmark에서 체계적으로 비교함.
Technical Solution
- Heuristic Detectors: 7,212개 labeled entries에서 18개 detector 카테고리별 cross-validated calibration 수행함
- Tiered Architecture: cheap heuristics 먼저 실행 후 필요한 경우만 LLM으로 escalation하는 계층적 파이프라인 구축함
- TRAIL Benchmark: 21개 failure category에서 841개 human-labeled errors에 대해 joint accuracy 측정함
- Who&When Benchmark: multi-agent conversation에서 failure attribution (누구, 언제) 분석을 위한 hybrid approach 검증함
- Hybrid Pipeline: structural failure는 heuristics, causal reasoning은 Sonnet call로 분리하여 각자의 강점 활용함
Impact
TRAIL benchmark에서 60.1% joint accuracy 달성함. Best LLM (Gemini 2.5 Pro 11.0%) 대비 5.5x 성능임. Precision 100% (false positive 없음)이며 cost per trace $0.00임. Who&When에서 hybrid approach가 $0.02 per case로 o1 대비 7.1% agent accuracy 향상 (60.3% vs 53.5%) 달성함.
Key Takeaway
Structural failures (loops, corruption, context handling)는 strong pattern signals를 가지므로 rule-based detection이 semantic reasoning보다 정확함. LLM은 blame attribution, novel failure detection, subjective quality처럼 causal reasoning이 필요한 영역에서만 필요함.
실천 포인트
Agent failure detection 시스템 구축 시 구조적 실패 패턴(loop, state corruption, tool errors)은 heuristic detectors로 먼저 처리하고, $0.02 수준의 Sonnet call로 attribution만 수행하는 tiered pipeline을 권장함. 이方式是 structural failure detection의 정확도와 비용 효율을 동시에 달성할 수 있음.