피드로 돌아가기
총 용량 1EB 초과! 서로 역사가 다른 두 HDFS를 어떻게 연결할까? 데이터 플랫폼 연계 중 직면한 과제와 설계 결정
LINE Engineering
Infrastructure

총 용량 1EB 초과! 서로 역사가 다른 두 HDFS를 어떻게 연결할까? 데이터 플랫폼 연계 중 직면한 과제와 설계 결정

1EB 규모의 서로 다른 HDFS Namespace 아키텍처 통합 및 연계

2026년 6월 23일29advanced

Context

구 LINE과 구 Yahoo Japan의 조직 통합으로 인해 총 용량 1EB를 초과하는 이기종 HDFS 클러스터 간 데이터 연계 필요성 발생. ViewFS 기반의 클라이언트 측 라우팅과 RBF 기반의 서버 측 라우팅이라는 서로 다른 Namespace 관리 체계로 인한 상호 운용성 제약 직면.

Technical Solution

  • ViewFS의 클라이언트 마운트 테이블 정합성 관리 부담을 RBF의 라우터 계층 가용성 확보 전략으로 상쇄하는 상호 보완적 접근
  • DistCP를 활용한 플랫폼 간 데이터 전송 경로를 설계하여 이기종 Namespace 간 물리적 데이터 이동 구현
  • WAN 회선 부하 최소화를 위한 DistCP 병렬도 및 대역폭 상한 제어 기반의 Small Start 운영 전략 채택
  • HDFS Permission과 역할 기반(Role-based) 권한 관리 체계의 간극을 메우기 위한 인증·인가 통합 거버넌스 수립
  • Observer NameNode를 통한 읽기 부하 분산 설계로 RBF 도입에 따른 NameNode 병목 현상 해결

1. 대규모 데이터 이전 시 WAN 대역폭 영향을 최소화하는 Throttle 설정 및 단계적 배포 전략 수립

2. 이기종 권한 관리 체계(POSIX vs Role-based) 통합 시 기술적 도구보다 운영 프로세스 기반의 거버넌스 우선 정의

3. 클라이언트 설정 의존적인 ViewFS와 서버 집중형 RBF의 트레이드오프를 분석하여 서비스 특성에 맞는 진입점 설계

원문 읽기