피드로 돌아가기
Resolve.ai Alternative: Open Source AI for Incident Investigation
Dev.toDev.to
DevOps

운영 장애 분석 자동화, Resolve.ai 대안인 오픈소스 Aurora 분석

Resolve.ai Alternative: Open Source AI for Incident Investigation

Siddharth Singh2026년 4월 2일6intermediate

Context

기존 AI SRE 플랫폼의 불투명한 가격 정책과 데이터 외부 유출 위험 존재. 특정 벤더 종속성으로 인해 인프라 환경에 맞는 유연한 커스텀 및 로컬 모델 적용의 한계 발생.

Technical Solution

  • LangGraph 기반 멀티 에이전트 아키텍처를 통한 동적 도구 선택 및 자율적인 장애 조사 수행
  • Memgraph 그래프 데이터베이스를 활용한 인프라 의존성 맵 구축 및 장애 영향 범위(Blast Radius) 분석
  • Weaviate 벡터 저장소를 이용한 런북 및 과거 장애 이력의 시맨틱 검색 기능 구현
  • Kubernetes 샌드박스 포드 내 non-root 권한 및 seccomp 적용으로 안전한 읽기 전용 CLI 명령어 실행 환경 제공
  • AWS STS AssumeRole 및 Azure Service Principal 등 클라우드 네이티브 인증 방식을 통한 다중 클라우드 API 직접 쿼리
  • Ollama 연동을 통한 로컬 LLM 지원으로 외부 네트워크 연결 없는 에어갭(Air-gapped) 운영 구조 설계

Impact

  • Coinbase: root cause 분석 시간 73% 단축
  • DoorDash: 장애 조사 속도 87% 향상

Key Takeaway

인프라 가시성 확보를 위해 단순 로그 분석을 넘어 그래프 DB 기반의 토폴로지 분석과 벡터 검색을 결합한 RAG 패턴의 유효성 확인. 보안 요구사항이 높은 환경에서는 샌드박스 기반의 실행 환경과 셀프 호스팅 구조가 필수적임.


데이터 주권 확보 및 비용 최적화가 필요한 환경에서는 Ollama와 Aurora를 조합한 자체 호스팅 AI SRE 체계 구축을 검토할 것

원문 읽기