피드로 돌아가기
Dev.toInfrastructure
원문 읽기
Cellular Architecture를 통한 장애 반경 최소화 및 고가용성 시스템 설계
Azure Cellular Architecture: Scaling with Cosmos DB Change Feed and Service Bus
AI 요약
Context
클라우드 네이티브 시스템의 상호 의존성 심화로 인한 단일 장애 지점(SPOF) 발생 및 전역 장애 전이 위험 증대. 거대 모놀리식 데이터/컴퓨팅 평면 구조로 인한 Blast Radius 제어 불가 문제 직면.
Technical Solution
- TenantId 기반의 Partition Key를 활용하여 요청을 격리된 Cell로 분산하는 Edge Routing 계층 설계
- Terraform 모듈을 통한 Cosmos DB, Service Bus, Azure Functions의 물리적 독립 스탬프 생성으로 완전한 Failure Domain 구축
- Control Plane과 Data Plane의 엄격한 분리를 통해 전역 라우팅 상태와 개별 셀 처리 로직의 의존성 제거
- Router 내 In-memory Caching을 도입하여 전역 매핑 테이블 조회 시 발생하는 RU/s Throttling 및 Latency 해결
- Service Bus의 max_delivery_count=5 설정을 통한 Poison Pill 메시지의 자동 Dead-Letter Queue(DLQ) 처리 및 셀 건전성 회복
실천 포인트
1. Tenant 단위의 완전한 격리가 필요한가?
2. Control Plane의 조회 부하를 줄이기 위한 로컬 캐싱 전략이 수립되었는가?
3. Terraform 모듈을 통해 인프라의 결정론적 반복 생성(Deterministic Stamp)이 가능한가?
4. Poison Pill 발생 시 Blast Radius를 특정 Cell 내부로 한정시켰는가?