피드로 돌아가기
Ending the 2 AM Nightmare: How My Backtrace Agent and GitLab Orbit Tame On-Call Chaos
Dev.toDev.to
DevOps

GitLab Orbit Knowledge Graph 기반 장애 추적 자동화로 On-call 복구 시간 단축

Ending the 2 AM Nightmare: How My Backtrace Agent and GitLab Orbit Tame On-Call Chaos

Vani Chitkara2026년 6월 21일3intermediate

Context

장애 발생 시 배포 로그와 Merge Request를 수동으로 대조하는 파편화된 분석 프로세스로 인한 복구 지연 발생. LLM의 추론에만 의존하는 기존 도구의 낮은 신뢰성과 데이터 간 연결성 부족이 주요 병목 지점으로 작용.

Technical Solution

  • GitLab Orbit 기반의 Queryable Knowledge Graph를 도입하여 환경, 배포, 코드 변경점, 작성자 간의 관계를 정형화된 데이터로 매핑
  • Production Incident 발생 시 그래프 홉(Hop)을 역추적하여 장애 지점부터 원인 코드 라인까지 연결하는 역방향 추적 로직 구현
  • 증상(Symptom)과 최근 변경 파일 간의 매칭을 통해 장애 유발 가능성이 높은 Culprit를 선정하는 랭킹 알고리즘 적용
  • 마지막 정상 배포 상태를 식별하여 즉각적인 Rollback 대상 지점을 정의하는 상태 추적 메커니즘 설계
  • Graph Fact를 기반으로 작성자 및 배포 담당자를 자동 식별하여 Triage Label을 부여하는 자동 할당 워크플로우 구축

1. 단순 로그 검색을 넘어 배포-코드-담당자 간의 관계를 정의한 Knowledge Graph 구축 검토

2. AI 도입 시 LLM의 추론에 의존하기보다 검증 가능한 사실(Verifiable Facts)을 먼저 제공하는 RAG 구조 설계

3. 장애 대응 프로세스에서 Rollback Target을 자동으로 식별하는 자동화 파이프라인 구현

원문 읽기