피드로 돌아가기

10PB+ 데이터 분산, Uber의 Zero-Downtime Hive Federation 전략

Uber’s Hive Federation Decentralizes 16K Datasets and 10+ PB for Zero-Downtime Analytics at Scale

Leela Kumili2026년 4월 9일2분advanced

AI 요약

Context

단일 네임스페이스 기반의 Monolithic Hive 구조. 리소스 경합으로 인한 Noisy Neighbor 현상 발생. 광범위한 ACL 권한 설정으로 인한 보안 사고 영향 범위 확대.

Technical Solution

Hive Metastore 내 Pointer 기반 접근 방식을 통한 데이터 물리적 복제 최소화
데이터셋 포인터를 새 HDFS 경로로 즉시 업데이트하여 쿼리 중단 없는 Zero-Downtime 전환 구현
Distributed Spark Job과 Checksum 검증을 수행하는 Bootstrap Migrator 중심의 초기 데이터 이동
소스와 타겟 간 메타데이터 정렬을 위한 Realtime 및 Batch Synchronizer의 양방향 업데이트 구조
포인터 백업 관리 및 불일치 감지 시 즉각적인 롤백을 지원하는 Recovery Orchestrator 설계
도메인 단위의 독립적인 Hive Database 분리 및 엄격한 ACL 적용을 통한 거버넌스 분산

Impact

16,000개 이상의 데이터셋 분산 처리
10PB 이상의 데이터 규모 관리
700만 건 이상의 Hive Metastore 동기화 수행
불필요한 데이터셋 제거를 통해 1PB 이상의 HDFS 공간 확보

Key Takeaway

거대 단일 시스템의 병목을 해결하기 위해 데이터의 물리적 이동과 메타데이터의 논리적 포인터를 분리함으로써 가용성을 유지하며 아키텍처를 점진적으로 탈중앙화하는 전략.

실천 포인트

대규모 데이터 마이그레이션 시 물리적 복제 전 메타데이터 포인터 전환 전략을 검토하여 서비스 중단을 방지할 것

태그

#Data Federation #HDFS #Hive #Metastore #Scalability