피드로 돌아가기
Dev.toDevOps
원문 읽기
AI 기반 RCA 자동화로 On-call 대응 시간을 단축하는 Open-source 플랫폼 wachd
I built an open-source OpsGenie alternative with AI-assisted incident response
AI 요약
Context
단순 알림 전달 중심의 기존 On-call 시스템으로 인한 인지 부하 증가 문제 해결 필요. 장애 발생 시 로그와 메트릭을 수동으로 분석해야 하는 운영상의 병목 지점 존재.
Technical Solution
- Alert, Log, Metric, Commit 데이터를 통합 분석하는 Correlation Engine 설계
- 장애 발생 시점에 맞춘 데이터 조회를 통한 Root-cause Analysis 자동 생성 로직 구현
- Kubernetes-native 배포 구조를 통한 인프라 확장성 및 관리 효율성 확보
- Ollama 통합을 통한 Air-gapped 환경 지원 및 AI Provider 선택권 제공
- Self-hosting 구조 설계를 통한 데이터 프라이버시 및 보안 제어권 강화
실천 포인트
- 장애 알림 시점의 최근 Commit 로그를 자동으로 매핑하여 변경 사항 기반의 RCA 프로세스 구축 - 외부 AI API 의존성을 제거하기 위해 로컬 LLM(Ollama 등)을 활용한 폐쇄망 분석 환경 검토 - Alert-Log-Metric-Commit으로 이어지는 데이터 파이프라인의 상관관계 분석 자동화 설계