피드로 돌아가기
Inside DolphinScheduler’s May 2026 Release: Better Failover, Stronger Security, and More Reliable Plugins
Dev.toDev.to
Infrastructure

Master Failover 안정성 확보 및 10,000라인 이상의 코드 최적화를 통한 시스템 신뢰성 강화

Inside DolphinScheduler’s May 2026 Release: Better Failover, Stronger Security, and More Reliable Plugins

Chen Debra2026년 6월 5일7intermediate

Context

Master 노드 장애 시 Failover Lock Leak으로 인한 클러스터 복구 지연 및 가용성 저하 문제 발생. RemoteShell Task의 NPE 발생과 플러그인 간 Dependency Conflict로 인한 런타임 불안정성이 주요 병목 지점으로 작용.

Technical Solution

  • Failover Lock Leak 제거를 통한 Master 노드 장애 복구 시간 단축 및 스케줄러 가용성 확보
  • Project-level Authorization 체크 로직을 Critical API에 적용하여 권한 모델의 직관성 및 보안성 강화
  • RemoteShell Task 내 NPE 발생 지점 수정으로 분산 로그 환경에서의 트러블슈팅 효율성 제고
  • AliyunServerlessSpark 플러그인의 Dependency 버전 교정 및 Exception Wrapping을 통한 런타임 ClassNotFound 오류 해결
  • CI/UT 파이프라인 최적화 및 테스트 케이스 확대로 배포 전 결함 탐지 능력 강화
  • AWS S3 Remote Logs의 Region 및 Endpoint 설정 유연화를 통한 스토리지 연결성 문제 해결

- Master/Worker 구조의 분산 시스템에서 Lock Leak 발생 가능성을 점검하고 Failover 시나리오 기반의 회귀 테스트 수행 - 플러그인 기반 아키텍처 설계 시 Shading, Relocation 또는 Dedicated ClassLoader를 통한 의존성 격리 검토 - Critical API에 대해 단순 인증을 넘어 리소스 단위의 세밀한 Authorization 체계 구축 여부 확인 - CI 파이프라인의 Flaky Test 비율을 측정하고 실행 시간 최적화를 통해 피드백 루프 단축

원문 읽기