피드로 돌아가기
InfoQInfrastructure
원문 읽기
Low Latency 최적화 구조의 Quorum 상실로 인한 전면 장애 사례
Coinbase Postmortem Reveals How a Localized AWS Failure Triggered a Multi-Hour Trading Outage
AI 요약
Context
초저지연 거래 처리를 위해 단일 AWS Cluster Placement Group 내에 Raft 기반 클러스터를 배치한 구조. 네트워크 지연 최소화를 위해 노드 간 물리적 거리를 좁혔으나, 이로 인해 특정 Availability Zone 장애 시 가용성이 급격히 저하되는 구조적 한계 보유.
Technical Solution
- Low Latency 달성을 위해 선택한 단일 AZ 내 노드 배치 전략으로 인한 Single Point of Failure 위험 노출
- 5개 노드 중 3개 노드가 동시에 Thermal Shutdown 되며 Raft 합의 알고리즘의 Quorum 상실 및 거래 처리 중단
- Failover 자동화 메커니즘 부재로 인한 수동 코드 수정 및 클러스터 재구축 기반의 복구 프로세스 수행
- 특정 AZ에 고립된 Kafka Partition으로 인한 데이터 백로그 발생 및 서비스 복구 지연 초래
- 수동 Partition Migration 및 Workload Rebalancing을 통한 메시징 인프라 정상화 추진
실천 포인트
- 성능 최적화를 위한 Tight Coupling 설계 시 발생 가능한 가용성 Trade-off 정밀 분석 - Raft 등 합의 알고리즘 적용 시 AZ 간 분산 배치를 통한 Quorum 유지 전략 수립 - 인프라 장애 상황을 가정한 Automated Cross-zone Recovery 시나리오 검증 - Event-streaming 인프라의 AZ 종속성 제거 및 자동 리밸런싱 메커니즘 확보