7,000개 실행 추적 분석으로 5가지 무음 실패 모드와 계층적 탐지 기법 확인함

Why Your Multi-Agent System Fails Silently (And How to Detect It)

Tuomo Nikulainen2026년 4월 2일10분advanced

AI 요약

Context

Multi-agent 시스템은 스택 트레이스나 500 에러 없이 조용히 실패함. 각 개별 단계는 성공하지만 전체 동작은 의도대로 수행되지 않음. 전통적인 모니터링은 예외와 타임아웃만 감지함.

Technical Solution

Hash 기반 비교: 정확히 반복되는 상태를 즉시 감지함
하위 시퀀스 매칭: Planner → Researcher → Planner 반복 패턴을 탐지함
의미론적 클러스터링: 다른 표현으로 동일 내용 반복을 그룹핑함
상태 델타 분석: 타입 변경, Null 전환, 속도 이상을 검사함
계층적 아키텍처: Tier 1~3까지 LLM 없이 패턴 매칭하고 Tier 4에서만 LLM 판정 사용함

Impact

TRAIL 벤치마크에서 LLM 비용 0으로 60.1% Joint Accuracy, 100% Precision 달성함. 최고 Frontier Model(Gemini 2.5 Pro)은 11%만 달성함.

Key Takeaway

Silent failure의 다수는 LLM 없이 패턴 매칭으로 탐지 가능함. 고비용 LLM 판정은 모호한 케이스에만 예약해야 함.

실천 포인트

Production에서 Multi-Agent 시스템을 운영할 때 Pisama의 4계층 탐지 아키텍처를 도입하여 Tier 1~2의 무료 패턴 매칭으로 대부분의 무음 실패를 초 단위로 탐지하고, Tier 4 LLM Escalation은 정밀 검사가 필요한 모호한 케이스에만 사용해야 함.

태그

#Pisama #Multi-agent #Heuristic Detection #failure-detection #Observability

원문 읽기