피드로 돌아가기
How I Built an AI-Powered Incident RCA Platform with LangGraph and RAG
Dev.toDev.to
AI/ML

LangGraph 기반 Multi-Agent 및 RAG를 통한 장애 RCA 자동화 플랫폼 구현

How I Built an AI-Powered Incident RCA Platform with LangGraph and RAG

Ananya S2026년 5월 26일6intermediate

Context

분산 시스템의 복잡도 증가로 인한 Telemetry 데이터 폭증으로 장애 발생 시 원인 파악에 과도한 시간과 인적 리소스 소모. 단일 LLM 프롬프트만으로는 복잡한 인과관계 분석과 정확한 Root Cause Analysis(RCA) 수행에 한계 존재.

Technical Solution

  • LangGraph를 이용한 Multi-Agent Orchestration 설계를 통해 복잡한 분석 과정을 단계별 전문 에이전트로 분리하여 모듈성 확보
  • FAISS 벡터 데이터베이스 기반의 RAG 구조를 도입하여 과거 유사 장애 패턴을 Contextual Memory로 활용함으로써 분석 일관성 개선
  • Retrieval, Classification, RCA, Timeline, Impact Analysis로 이어지는 순차적 추론 체인을 구축하여 분석 결과의 설명 가능성 제고
  • 단순 생성형 AI의 환각 현상을 방지하기 위해 Retrieval Accuracy 및 RCA Match Accuracy를 측정하는 별도의 Evaluation Layer 설계
  • 실제 관측 데이터의 부재를 해결하기 위해 Kubernetes 및 DB Connection Exhaustion 등 전형적인 장애 시나리오 기반의 Synthetic Log 생성 체계 구축

- 복잡한 추론 과정이 필요한 AI 서비스 설계 시 단일 프롬프트 대신 LangGraph와 같은 상태 기반 Multi-Agent 워크플로우 검토 - 도메인 특화 지식이나 과거 이력이 중요한 시스템의 경우 RAG를 통해 LLM의 추론 근거를 강화하는 전략 수립 - AI 파이프라인 구축 시 생성 결과의 정성적 판단을 배제하고 Accuracy, Latency, Confidence 등 정량적 평가 지표를 최우선으로 정의

원문 읽기