피드로 돌아가기
I built an open-source OpsGenie alternative with AI-assisted incident response
Dev.toDev.to
DevOps

AI 기반 RCA 자동화로 On-call 대응 시간을 단축하는 Open-source 플랫폼 wachd

I built an open-source OpsGenie alternative with AI-assisted incident response

fatkobra2026년 5월 14일1intermediate

Context

단순 알림 전달 중심의 기존 On-call 시스템으로 인한 인지 부하 증가 문제 해결 필요. 장애 발생 시 로그와 메트릭을 수동으로 분석해야 하는 운영상의 병목 지점 존재.

Technical Solution

  • Alert, Log, Metric, Commit 데이터를 통합 분석하는 Correlation Engine 설계
  • 장애 발생 시점에 맞춘 데이터 조회를 통한 Root-cause Analysis 자동 생성 로직 구현
  • Kubernetes-native 배포 구조를 통한 인프라 확장성 및 관리 효율성 확보
  • Ollama 통합을 통한 Air-gapped 환경 지원 및 AI Provider 선택권 제공
  • Self-hosting 구조 설계를 통한 데이터 프라이버시 및 보안 제어권 강화

- 장애 알림 시점의 최근 Commit 로그를 자동으로 매핑하여 변경 사항 기반의 RCA 프로세스 구축 - 외부 AI API 의존성을 제거하기 위해 로컬 LLM(Ollama 등)을 활용한 폐쇄망 분석 환경 검토 - Alert-Log-Metric-Commit으로 이어지는 데이터 파이프라인의 상관관계 분석 자동화 설계

원문 읽기