피드로 돌아가기
The RegisterInfrastructure
원문 읽기
US-EAST-1 리전 Thermal Event로 인한 EC2 및 EBS 서비스 장애 분석
AWS warns of EC2 ‘impairment’ as power loss hits notorious US-EAST-1 region
AI 요약
Context
AWS US-EAST-1 리전의 use1-az4 Availability Zone 내 데이터센터 전력 손실 발생. Thermal Event로 인한 냉각 시스템 마비가 하드웨어 온도 상승 및 서비스 장애로 이어진 상황.
Technical Solution
- 전력 손실에 따른 Thermal Event 발생으로 EC2 Instance 및 EBS Volume의 물리적 가동 중단
- 냉각 시스템의 점진적 복구를 통한 하드웨어 온도 정상화 시도
- 장애가 발생한 Availability Zone에서 타 AZ로의 Traffic Shifting 수행
- 리전 내 가용성 확보를 위해 고객사의 Workload 이전 권고
- 대규모 트래픽 수용 범위가 넓은 US-EAST-1 리전 특성에 따른 인프라 부하 관리 최적화 필요성 확인
실천 포인트
- 단일 Availability Zone 장애에 대비한 Multi-AZ 아키텍처 설계 및 검증 - 특정 리전 장애 시 즉각적인 Workload 전환이 가능한 Disaster Recovery 전략 수립 - Provisioning 시간 증가를 고려한 Auto Scaling 그룹의 여유 용량 사전 확보