피드로 돌아가기
Dev.toInfrastructure
원문 읽기
추가 비용 없는 Glue Workflow 기반 ETL 파이프라인 최적 설계
Organizing How to Use AWS Glue Workflow
AI 요약
Context
복잡한 워크플로우 관리를 위해 Step Functions 도입이 일반화된 추세 속에서 단순 ETL 파이프라인의 오버헤드 발생. Glue 전용 서비스 활용을 통한 관리 복잡도 제거와 비용 효율적 오케스트레이션 필요성 대두.
Technical Solution
- Glue Job, Crawler, Trigger의 3요소를 DAG 구조로 연결한 Native 오케스트레이션 설계
- CONDITIONAL Trigger의 AND/ANY 논리 연산자를 통한 다중 데이터 소스 동기화 및 실행 제어
- FAILED, TIMEOUT 등 상태 기반 분기 설계를 통한 SNS 알림 Job 연결 및 예외 처리 자동화
- default_run_properties를 활용한 워크플로우 전역 변수 공유 및 Job 간 파라미터 전파
- EventBridge 연동 EVENT Trigger 적용으로 외부 이벤트 기반의 실시간 ETL 파이프라인 구현
- ResumeWorkflowRun 기능을 활용한 실패 노드부터의 부분 재시작으로 복구 효율성 확보
실천 포인트
- 워크플로우 내 구성 요소(Jobs+Crawlers+Triggers) 합계를 100개 미만으로 유지하여 런타임 오류 방지 - 보안 데이터는 Run Property 대신 AWS Secrets Manager 또는 Glue Connections를 통해 참조 - IaC 정의 시 논리 연산자 값을 OR가 아닌 ANY로 명시하여 설정 오류 방지 - 단순 실패 알림은 Step Functions 없이 CONDITIONAL Trigger의 FAILED 상태 분기로 구현