피드로 돌아가기
Dev.toDevOps
원문 읽기
Multi-Region Consensus 도입을 통한 False Alert 0건 달성
I Switched From UptimeRobot to Vigilmon: Here's What Changed
AI 요약
Context
Single Probe 기반 모니터링 구조로 인한 네트워크 일시 오류 및 DNS 블립 발생. 모니터링 시스템 자체의 Single Point of Failure로 인해 불필요한 알람이 생성되는 Alert Fatigue 문제 직면.
Technical Solution
- 단일 지점 체크 방식을 Multi-Region Consensus Monitoring 구조로 전환
- US-East, EU-West, Asia-Pacific 등 지리적으로 분산된 복수 Probe 배치
- 과반수 이상의 리전에서 동일한 장애 상태를 확인했을 때만 Alert를 발송하는 합의 로직 적용
- 개별 Probe의 일시적 네트워크 이슈를 Noise로 간주하여 필터링하는 구조 설계
- SSL Expiry 모니터링 및 Public Status Page 통합으로 관측성 범위 확장
Impact
- 월 평균 False Alert 발생 횟수 약 10건에서 0건으로 감소
- 실 장애 감지 시간(Detection Time)은 1~2분 내외로 기존 성능 유지
Key Takeaway
모니터링 시스템 설계 시 관찰자(Probe)의 신뢰성 문제를 해결하기 위해 분산 합의 구조를 도입함으로써 신호 대 잡음비(Signal-to-Noise Ratio)를 극대화할 수 있음.
실천 포인트
- On-call 엔지니어의 Alert Fatigue가 심화되는지 주기적으로 측정 - 모니터링 도구 선정 시 Single Probe 방식인지 Multi-Region Consensus 방식인지 검토 - 서비스 중요도에 따라 모니터링 수량보다 알람의 정확도(Precision)를 우선순위에 배치 - SSL 인증서 만료 알람 등 부가적인 가시성 도구가 통합되어 있는지 확인