피드로 돌아가기
Auto-verifying your AI-SRE's fixes (Part II): HolmesGPT end-to-end on a real cluster
Dev.toDev.to
DevOps

mirrord 기반 실시간 클러스터 검증으로 AI-SRE 패치 신뢰성 확보

Auto-verifying your AI-SRE's fixes (Part II): HolmesGPT end-to-end on a real cluster

Eyal Bukchin2026년 6월 24일6advanced

Context

AI-SRE가 제안한 코드 패치가 실제 운영 환경에서 SLO를 충족하는지 검증하는 단계가 부재함. 단순히 LLM의 추론에 의존하여 패치를 적용할 경우, 일부 지표는 개선되나 정작 알람의 원인인 임계치는 해결하지 못하는 리스크가 존재함.

Technical Solution

  • HolmesGPT를 통한 알람 원인 분석 및 Markdown 리포트 생성 구조 설계
  • Claude Wrapper를 활용하여 분석 리포트를 실행 가능한 Code Patch로 변환하는 Bridge 로직 구현
  • mirrord exec를 통해 실제 클러스터의 Network Identity와 Env를 복제하여 격리된 환경에서 패치 코드 실행
  • Baseline과 Patched Run의 성능 지표를 비교하여 SLO 충족 여부를 판별하는 Verifier 도입
  • Regression Watchlist를 통해 주요 지표(p50, p99 latency 등)의 성능 저하 여부를 동시 검증
  • SLO 미충족 시 p50 개선과 무관하게 REJECT 판정을 내리는 Alert-aware Classification 적용

- AI가 제안한 패치를 적용하기 전, 실제 운영 환경의 컨텍스트를 복제한 Sandbox에서 검증 프로세스를 거치고 있는가 - 평균 지표(p50)의 개선이 아닌, 알람의 트리거가 된 임계치 지표(p99, Error Rate 등)의 해결 여부를 기준으로 성공을 정의하고 있는가 - 패치 적용 후 주요 성능 지표의 퇴보를 감지할 수 있는 Regression Watchlist를 운영하고 있는가

원문 읽기