피드로 돌아가기
InfoQInfrastructure
원문 읽기
10PB+ 데이터 분산, Uber의 Zero-Downtime Hive Federation 전략
Uber’s Hive Federation Decentralizes 16K Datasets and 10+ PB for Zero-Downtime Analytics at Scale
AI 요약
Context
단일 네임스페이스 기반의 Monolithic Hive 구조. 리소스 경합으로 인한 Noisy Neighbor 현상 발생. 광범위한 ACL 권한 설정으로 인한 보안 사고 영향 범위 확대.
Technical Solution
- Hive Metastore 내 Pointer 기반 접근 방식을 통한 데이터 물리적 복제 최소화
- 데이터셋 포인터를 새 HDFS 경로로 즉시 업데이트하여 쿼리 중단 없는 Zero-Downtime 전환 구현
- Distributed Spark Job과 Checksum 검증을 수행하는 Bootstrap Migrator 중심의 초기 데이터 이동
- 소스와 타겟 간 메타데이터 정렬을 위한 Realtime 및 Batch Synchronizer의 양방향 업데이트 구조
- 포인터 백업 관리 및 불일치 감지 시 즉각적인 롤백을 지원하는 Recovery Orchestrator 설계
- 도메인 단위의 독립적인 Hive Database 분리 및 엄격한 ACL 적용을 통한 거버넌스 분산
Impact
- 16,000개 이상의 데이터셋 분산 처리
- 10PB 이상의 데이터 규모 관리
- 700만 건 이상의 Hive Metastore 동기화 수행
- 불필요한 데이터셋 제거를 통해 1PB 이상의 HDFS 공간 확보
Key Takeaway
거대 단일 시스템의 병목을 해결하기 위해 데이터의 물리적 이동과 메타데이터의 논리적 포인터를 분리함으로써 가용성을 유지하며 아키텍처를 점진적으로 탈중앙화하는 전략.
실천 포인트
대규모 데이터 마이그레이션 시 물리적 복제 전 메타데이터 포인터 전환 전략을 검토하여 서비스 중단을 방지할 것