피드로 돌아가기
Dev.toInfrastructure
원문 읽기
GCP 계정 정지로 인한 8시간 장애를 통한 Control Plane 가용성 재정의
5 things Railway’s 8 hour outage should change about how you think about redundancy
AI 요약
Context
AWS와 Railway Metal을 포함한 Multi-cloud 환경을 구축하여 인프라 가용성을 확보한 구조. 하지만 실제 서비스 라우팅을 담당하는 Control Plane이 단일 GCP 계정에 종속되어 인프라 수준의 Redundancy가 무력화된 한계 노출.
Technical Solution
- 자동화 시스템의 오작동으로 인한 Production Account 정지 상황 발생 및 이에 따른 전체 서비스 불가 상태 진입
- Data Plane(Workload)의 분산 배치에도 불구하고 Control Plane의 단일 지점 종속성으로 인한 Single Point of Failure(SPOF) 형성
- Route Cache 만료 후 Edge Proxy가 Workload 위치 정보를 획득하지 못해 발생하는 라우팅 실패 메커니즘 확인
- 계정 복구 후 즉시 서비스 재개가 아닌 Persistent Disk 연결 및 네트워킹 계층의 단계적 검증을 통한 복구 프로세스 수행
- 복구 시 발생하는 Traffic Stampede 방지를 위해 Queue Deploy Throttling을 적용한 안정적 서비스 정상화 전략 채택
실천 포인트
1. Control Plane의 provider 종속성 분석 및 장애 시 Read-only 모드 유지 가능 여부 검토
2. 인프라 수준의 Region/Zone 장애를 넘어선 Account Suspension 시나리오의 BCP(Business Continuity Plan) 수립
3. Provider의 서비스 복구 시점과 실제 애플리케이션의 RTO 사이의 간극을 메우기 위한 단계적 복구 시퀀스 정의
4. Control Plane 장애 시 Edge 단의 Cache TTL 최적화 및 Fallback 라우팅 전략 설계