피드로 돌아가기
InfoQInfoQ
Infrastructure

100분간의 글로벌 WAN 장애를 통한 시스템 복원력과 Blameless 분석 체계 구축

Presentation: The Time It Wasn't DNS

Sean Klein2026년 6월 23일26intermediate

Context

Azure WAN의 전역적 가용성 상실로 인해 Microsoft 365, Xbox 등 다수 서비스가 동시 중단된 대규모 장애 발생. 단순한 휴먼 에러나 설정 변경이라는 단편적 내러티브에 매몰되어 근본 원인을 놓칠 위험이 존재하는 상황 분석.

Technical Solution

  • 단순 Five Whys를 넘어선 Modern Incident Analysis 프레임워크 도입을 통한 심층 분석 수행
  • 장애 발생 시 단순 Alert 수준의 Incident와 고객 영향이 확인된 Outage를 엄격히 구분하여 대응 리소스 최적화
  • Severity 0~1 체계를 통한 서비스 영향 범위(Multi-AZ, Global)별 중앙 집중식 Incident Management 가동
  • 엔지니어의 개별 실수보다 시스템적 보호 장치(Guardrail) 부재에 초점을 맞춘 Blameless Post-mortem 문화 적용
  • 명령 실행 전 시스템 상태 가시성을 제공하고 오작동을 방지하는 System Resilience 설계 원칙 강화

1. 장애 분석 시 '누가' 했는가보다 '왜 시스템이 이를 허용했는가'에 집중하는 Blameless 문화 정착

2. 단순 경고(Incident)와 실제 서비스 중단(Outage)의 정의를 명확히 구분하여 대응 프로세스 수립

3. 고위험 명령 실행 시 영향도를 미리 예측할 수 있는 Pre-flight Check 및 가시성 도구 도입

4. 장애 복구 후 단순 요약이 아닌 엔지니어링 의사결정 과정을 기록하는 심층 분석 문서화

원문 읽기