피드로 돌아가기
InfoQInfoQ
Database

Netflix의 분산 데이터 삭제 플랫폼을 통한 데이터 손실 리스크 제어 및 복구 자동화

Presentation: Architecting a Centralized Platform for Data Deletion at Netflix

Vidhya Arvind, Shawn Liu2026년 6월 4일31advanced

Context

다양한 데이터 저장소(Cassandra, DynamoDB, RDS 등)마다 상이한 삭제 메커니즘으로 인해 발생하는 운영 복잡성과 휴먼 에러 기반의 데이터 손실 리스크가 존재함. 특히 Hard Delete 시 발생하는 Tombstone 읽기 부하와 CPU 스파이크 등 리소스 비용 최적화 및 일관된 삭제 제어 체계가 부재한 상황임.

Technical Solution

  • Sharding 기반의 Delete Service 배포를 통한 단일 장애 지점(SPOF) 제거 및 영향도 격리
  • Time-Series Database 구조의 Journal Service를 도입하여 모든 삭제 이벤트를 기록하고 추적 가능성 확보
  • Async Stack 설계를 통해 고객 삭제 엔드포인트 호출과 실제 데이터 삭제 프로세스의 비동기 처리 구현
  • Conflict Resolution 전략으로 원본 타임스탬프에 1ms를 더한 중간 삽입 방식을 채택하여 Last Write Wins 일관성 유지
  • 대규모 복구 시 Online Insert 대신 SSTable 직접 생성 및 로딩 방식을 통한 Offline Bulk Recovery 가속화

- 데이터 저장소별 TTL, Hard Delete, Soft Delete의 리소스 비용(CPU, Storage) 및 읽기 지연 시간 분석 - 삭제 작업의 가시성 확보를 위한 삭제 저널링(Deletion Journaling) 시스템 구축 검토 - 복구 시 최신 데이터 덮어쓰기를 방지하기 위한 정밀한 타임스탬프 제어 전략 수립 - 대량 데이터 복구를 위한 SSTable 기반의 Bulk Load 메커니즘 적용 가능성 확인

원문 읽기