피드로 돌아가기
The Closed-Loop Trust Score: Three Numbers That Decide Which Remediations Run Without a Human
Dev.toDev.to
Infrastructure

신뢰 점수 기반 자동 복구 설계로 MTTR 3~5배 단축 및 자동화율 85% 달성

The Closed-Loop Trust Score: Three Numbers That Decide Which Remediations Run Without a Human

Muskan2026년 5월 15일10advanced

Context

기존 Closed-loop 복구 시스템이 정적인 규칙이나 엔지니어의 직관에 의존하여 자동 실행 여부를 결정함에 따라 신뢰도 저하 및 운영 효율성 감소 발생. 과도한 보수적 설정으로 인한 티켓 적체와 공격적 설정으로 인한 장애 위험 사이의 Trade-off 해결이 필요함.

Technical Solution

  • Blast Radius, Reversibility, Confidence 세 가지 정량적 지표를 곱산하여 결정론적 Trust Score 산출 구조 설계
  • Blast Radius 계산 시 단순 Tag 기반 판별을 넘어 Traffic Signal 및 Customer Attribution 데이터를 결합한 동적 가중치 적용
  • Reversibility를 Action 단위의 Lookup Table로 관리하여 자원 특성과 무관한 복구 가능 시간 및 비용 정의
  • 산출된 Trust Score와 튜닝 가능한 단일 Threshold를 비교하여 Auto-execute와 Page-human 경로를 자동 분기
  • Incident Postmortem 데이터를 기반으로 Threshold를 월 단위로 조정하는 피드백 루프 구축

Impact

  • Auto-action 적용 대상의 MTTR을 18~45분에서 2~4분으로 3~5배 단축
  • 전체 탐지 이벤트의 70~85%를 인간 개입 없이 자동 처리하는 운영 효율 확보
  • 비용 관련 Pager-page 발생 빈도를 3개월 후 40~60% 감소

Key Takeaway

개별 Rule의 정적 정책 설정보다 정량적 지표의 곱산으로 정의된 신뢰 모델(Trust Model)이 시스템의 예측 가능성과 확장성을 보장함.


- 자원 태그 외에 실제 트래픽 지표를 결합하여 Blast Radius 측정 로직을 구현했는가? - 복구 가능 여부와 소요 시간을 Action별 Lookup Table로 명시하여 관리하고 있는가? - 자동화 임계값을 정적인 설정값이 아닌 Postmortem 기반의 튜닝 가능한 파라미터로 설계했는가?

원문 읽기