피드로 돌아가기
The RegisterInfrastructure
원문 읽기
GCP 계정 중단으로 인한 전면 장애와 Multi-Cloud 전환의 필요성
Google Cloud suspended major customer Railway.com without cause, causing outage
AI 요약
Context
Railway.com은 GCP 기반의 Control Plane과 데이터베이스 의존성을 가진 PaaS 플랫폼으로 운영됨. 단일 클라우드 벤더의 계정 정지 조치만으로 인프라 리소스가 모두 비가시화되는 단일 장애 지점(SPOF) 문제 발생.
Technical Solution
- Google Cloud의 일방적 계정 정지에 따른 전면 서비스 중단 및 리소스 접근 불가 상태 직면
- 2024년부터 비즈니스 생존 리스크를 줄이기 위해 인프라 상당 부분을 Colocation 서비스로 이전하는 Hybrid Cloud 전략 추진
- Control Plane과 핵심 데이터베이스의 GCP 잔존으로 인한 부분적 의존성 유지 및 복구 지연 발생
- 계정 정지 후 Google 지원 팀의 대응 지연(약 1시간)으로 인한 복구 골든타임 상실
- Enterprise 배포 환경의 안정성 유지와 일반 배포 환경의 일시적 중단을 통한 단계적 복구 프로세스 적용
실천 포인트
1. Critical Path에 위치한 Control Plane의 Multi-Cloud 배포 가능 여부 검토
2. 클라우드 벤더의 일방적 계정 정지에 대비한 백업 인프라 및 Failover 전략 수립
3. 고비용 지출 고객사임에도 보장되지 않는 CSP 지원 체계에 대한 SLA 재검토
4. 핵심 데이터베이스의 클라우드 외 외부 복제본 유지 및 데이터 주권 확보