피드로 돌아가기
IRAS: Building an Autonomous AI Agent for Incident Response
Dev.toDev.to
DevOps

MTTR을 30분에서 2분으로 단축한 LangGraph 기반 자율 Incident Response 에이전트

IRAS: Building an Autonomous AI Agent for Incident Response

Krishna shakula2026년 5월 8일4intermediate

Context

반복적인 패턴의 Incident 처리 과정에서 엔지니어의 단순 분석 및 리소스 소모가 발생하는 비효율성 존재. 기존의 수동 Triage 및 RCA 방식은 정형화된 문제 해결 시에도 과도한 휴먼 리소스를 요구하는 한계점 노출.

Technical Solution

  • LangGraph State Machine을 도입하여 Triage, RCA, Remediation, Post-Mortem으로 이어지는 워크플로우를 상태 기반으로 제어하는 구조 설계
  • Claude LLM의 추론 능력과 Pydantic AI의 Structured Output을 결합하여 분석 결과의 데이터 정밀도와 타입 안정성 확보
  • 각 단계 사이에 Human-in-the-Loop 승인 게이트를 배치하여 AI의 자율성과 시스템 제어권 사이의 Trade-off 해결
  • FastAPI 기반의 HTTP 엔드포인트 구축을 통해 PagerDuty, Slack 등 외부 서비스와의 연동 및 확장성 확보
  • Mock Client 기반의 격리된 테스트 환경 구축으로 외부 의존성 없는 99%의 테스트 커버리지 달성

1. 반복적인 운영 태스크의 패턴 분석 및 State Machine 모델링 가능 여부 검토

2. LLM 출력값의 검증을 위한 Pydantic 기반의 Schema 정의 및 Validation 레이어 적용

3. 외부 서비스 의존성을 제거한 Mocking 전략 수립을 통한 테스트 커버리지 확보

4. 자동화 단계별 Human Approval Gate 설계를 통한 위험 제어 장치 마련

원문 읽기