IBM과 UC Berkeley가 MAST 분류법으로 310개 ITBench SRE 트레이스를 분석해 agentic LLM 시스템의 구체적 실패 원인 14가지 패턴 규명

IBM and UC Berkeley Diagnose Why Enterprise Agents Fail Using IT-Bench and MAST

2026년 2월 18일12분intermediate

AI 요약

Context

ITBench 같은 에이전트 벤치마크는 성공률이라는 단일 메트릭(예: 14%)으로만 보고하기 때문에 에이전트가 '왜' 실패했는지 알 수 없다. 개발자들은 실패 원인(메모리 누수, 자체 검증 실패, 부정확한 추론 등)을 진단하지 못한 채 무작정 프롬프트만 수정하게 된다.

Technical Solution

MAST(Multi-Agent System Failure Taxonomy) 도입: 1,600개 이상의 실행 트레이스를 분석해 14가지 실패 패턴을 3개 범주(시스템 설계, 에이전트 간 소통, 작업 검증)로 분류
구조화된 실패 벡터 추출: 비정형 실행 로그를 14개 실패 모드(FM-1.3 Step Repetition, FM-3.3 Incorrect Verification 등)로 변환
ITBench SRE 310개 트레이스에 MAST 적용: Gemini-3-Flash, Kimi-K2, GPT-OSS-120B 세 모델 클래스별 실패 서명 분석
모델별 맞춤형 개입 전략 도출: Gemini-3-Flash(검증 외부화), Kimi-K2(상태 머신 제어), GPT-OSS-120B(컨텍스트 위생 강화)

Impact

Frontier 모델(Gemini-3-Flash) 평균 2.6개 실패 모드/트레이스 대비 대규모 오픈 모델(GPT-OSS-120B) 5.3개 실패 모드/트레이스
Kimi-K2 조기 종료 비율(FM-3.1) +46%, 종료 조건 인식 실패(FM-1.5) +43%
FM-3.3(Incorrect Verification) 모든 모델에서 가장 강력한 실패 예측 지표

Key Takeaway

에이전트 시스템의 정량적 성공률만으로는 개선 방향을 알 수 없으므로, MAST 같은 구조화된 실패 분류법을 통해 '어느 단계에서 어떤 이유로 실패하는가'를 진단하고 아키텍처 수준의 구체적 개입(검증 외부화, 상태 머신, 컨텍스트 관리)을 시행해야 한다.

실천 포인트

엔터프라이즈 IT 자동화 에이전트를 구축할 때 LLM의 자체 검증을 절대 신뢰하지 말고 외부 도구(AlertManager, Kubernetes 상태 조회)의 hard evidence를 필수로 요구하며, Kimi-K2 같은 모델을 사용 시 명시적 종료 조건과 반복 루프 감지를 에이전트 그래프 내 결정 분기로 구현하고, 작은 추론 불일치가 컨텍스트 전체를 오염시키지 않도록 조기 에러 감지와 컨텍스트 정리(context hygiene)를 강화하면 같은 모델이라도 실패 모드를 50% 이상 줄일 수 있다.

태그

#IT_Automation #Agent_Evaluation #Failure_Taxonomy #Kubernetes #LLM_Reliability

원문 읽기