피드로 돌아가기
How I Monitor 80+ Cloud Services in Real-Time (And Get Notified Before My Users Do)
Dev.toDev.to
Infrastructure

80+ 서비스의 상태를 통합 감시하는 실시간 Notification 시스템 구축

How I Monitor 80+ Cloud Services in Real-Time (And Get Notified Before My Users Do)

Firat Celik2026년 4월 26일7intermediate

Context

파편화된 Cloud 서비스 상태 페이지의 수동 확인으로 인한 장애 인지 지연 발생. 개별 서비스마다 상이한 API 포맷과 비일관적인 데이터 구조로 인해 통합 모니터링 체계 부재.

Technical Solution

  • Atlassian Statuspage 및 Custom API를 포함한 다각적 Polling 구조 설계
  • 상이한 응답 형식을 단일 Schema로 변환하는 Normalization Layer 구현
  • 서버 측 State Store 기반의 Current-Previous 상태 비교를 통한 State Change 감지 로직 적용
  • FCM 및 APNs를 활용하여 상태 변경 즉시 Push Notification을 송신하는 이벤트 기반 알림 체계 구축
  • 서비스 중요도 및 사용자 플랜에 따라 Polling Interval을 60초에서 5분까지 차등 적용하는 리소스 최적화

- 외부 API 통합 시 데이터 정규화를 위한 공통 스키마 우선 설계 여부 확인 - 상태 변화 감지를 위한 이전 상태 저장소(State Store)의 일관성 확보 - API 미지원 서비스 대응을 위한 HTML Scraping Fallback 전략 수립 - 사용자 경험 및 비용 최적화를 위한 Polling 주기 차등 설계 검토

원문 읽기