피드로 돌아가기
How I Built an Autonomous Incident Investigation Agent That Reduced MTTR by 65%
Dev.toDev.to
DevOps

AI Agent 기반 자동 장애 분석으로 MTTR 65% 감소 달성

How I Built an Autonomous Incident Investigation Agent That Reduced MTTR by 65%

Vinothsingh Elumalai2026년 6월 18일11intermediate

Context

온콜 엔지니어가 PagerDuty, Datadog, GitHub 등 다수 도구를 교차 확인하며 발생하는 높은 인지 부하와 분석 시간 지연 문제 발생. 수동 분석 시 숙련도에 따라 15분에서 수 시간까지 소요되는 병목 지점 확인.

Technical Solution

  • API Gateway의 30초 Timeout 제약을 해결하기 위해 Sync Lambda(검증 및 호출)와 Async Lambda(실제 분석)로 분리한 Two-Lambda 아키텍처 설계
  • 장애 원인의 80% 이상이 변경 사항에 있다는 가설에 기반하여 Datadog보다 GitHub Commit 내역을 우선 분석하는 순차적 워크플로우 적용
  • 다중 AWS Region 환경에서 신호 혼선을 방지하기 위해 Alert 메타데이터 기반의 Region Lock을 통한 쿼리 스코핑 구현
  • Amazon Bedrock(Claude Opus)의 Tool-Use Loop를 활용하여 외부 API 데이터를 스스로 수집하고 상관관계를 추론하는 Agent 구조 채택
  • 최종 분석 결과를 MS Teams Adaptive Card로 정형화하여 전달함으로써 엔지니어의 상황 파악 시간 최소화

1. 외부 Webhook 연동 시 타임아웃 방지를 위해 Async 처리 패턴을 도입했는가

2. AI Agent의 검색 범위를 제한하여 False-Positive를 줄이는 필터링 로직이 포함되었는가

3. 관측 데이터 분석 전 변경 이력(Change Log)을 우선 확인하는 우선순위 큐를 설계했는가

원문 읽기