모니터링 스택의 6가지 숨겨진 결함(미구성 Escalation Policy, 통지 채널 없는 Alert, 손상된 Dashboard 등)을 체계적으로 감지하는 다중 도구 감사 프레임워크

How to Audit Your Monitoring Stack (Before the Next Incident Does It for You)

paulg75162026년 3월 26일9분intermediate

AI 요약

Context

Post-mortem에서 반복되는 패턴은 모니터링이 시간이 지나면서 자동으로 "drift"된다는 것이다. PagerDuty Escalation Policy가 퇴사자를 가리키거나, Datadog Monitor가 통지 채널 없이 설정되거나, Grafana Dashboard의 메트릭이 마이그레이션 후 업데이트되지 않은 채로 방치된다. 평균 팀이 3~5개의 모니터링 도구를 사용하면서 각 도구 간 결함이 숨겨진다.

Technical Solution

Escalation Policy 검증: 모든 PagerDuty Escalation Policy가 최소 2개 레벨을 가지고 있고, 스케줄에 할당되지 않은 시간 블록이 없으며, Catch-all Policy가 존재하는지 확인
Alert 채널 검증: Datadog/Grafana의 Monitor가 실제 통지 대상(이메일, Slack)을 가지고 있고, 그 대상이 아카이브되거나 삭제되지 않았는지 확인
Dashboard 패널 검증: Dashboard의 모든 패널이 데이터를 반환하고, 참조하는 메트릭이 여전히 존재하는지 확인
Endpoint 커버리지 검증: 코드베이스의 HTTP 엔드포인트 수를 모니터링 도구의 Monitor 수와 비교하여 커버되지 않은 서비스 식별
Database 모니터링 검증: 가용성 체크뿐 아니라 느린 쿼리, 커넥션 풀 고갈, Replication lag, 디스크 공간 추세를 모니터링하는지 확인
Error Tracking 검증: Sentry 같은 도구가 에러를 수집하기만 하는지 아니면 실제 Alert Rule(예: 베이스라인 대비 5배 증가)을 설정했는지 확인
다중 도구 간 연계 검증: Datadog Monitor의 Alert가 PagerDuty Policy로 라우팅되고, 그 Policy가 활성 상태인지 확인

Key Takeaway

모니터링 감사는 단일 "건강도" 점수가 아니라 6개 차원(Endpoint, Database, Error Tracking, Alert Quality, Escalation Routing, Dashboard Health, Business Flow, Infrastructure)을 분리해서 채점해야 한다. 평균 팀이 한 차원에서 90%인 동시에 다른 차원에서 20%일 수 있으므로, 전체적 측정 없이는 실제 취약점이 숨겨진다.

실천 포인트

Platform/SRE 팀에서 모니터링 스택을 감시할 때, Datadog, PagerDuty, Sentry, Grafana 등 각 도구를 별도로 감사하는 대신 6개 차원 체크리스트를 일주일에 한 차원씩 순회하며 실행하면, 단일 "감사 프로젝트"보다 지속적으로 drift를 감지할 수 있다. 특히 신규 서비스 배포 시 PR 단계에서 모니터링 채택 여부를 자동 검사하면 처음부터 커버리지 갭을 방지할 수 있다.

태그

#PagerDuty #Incident Response #Monitoring #Datadog #Observability

원문 읽기