피드로 돌아가기
올리브영 테크블로그Backend
원문 읽기
올리브영 데이터 엔지니어링
올리브영이 IDC 기반 ETL 시스템에서 GCP + Airflow + Spark 기반 클라우드 플랫폼으로 전환해 다양한 데이터 원천 수용 및 로그 수집 기능 추가
AI 요약
Context
기존 IDC 기반 ETL 시스템은 원본 DB를 Data Warehouse에 적재하는 파이프라인 개발에만 한정되어 있었습니다. 빠르게 추가되는 원천 데이터 수용 및 다양한 경로를 통한 데이터 제공에 한계가 있어 새로운 데이터 플랫폼 설계가 필요했습니다.
Technical Solution
- 클라우드 플랫폼 선택: AWS / Azure / GCP를 비교하여 GCP로 데이터 플랫폼 구성
- 데이터 파이프라인 도구 도입: Airflow / Spark를 통해 다양한 데이터 원천 수용
- 분석 환경 제공: BigQuery를 이용한 데이터 분석 환경 구축
- 데이터 수집 확대: ETL을 통한 데이터 수집 외에 로그 수집 기능 추가
- 향후 아키텍처 확장: MSA 아키텍처를 통한 데이터 서비스 플랫폼으로 진화 중
Key Takeaway
클라우드 기반 플랫폼 도입을 통해 데이터 엔지니어링 업무 범위를 파이프라인 개발에서 회사 데이터 생태계 전반으로 확장할 수 있으며, 이는 비즈니스 요구사항의 빠른 변화에 대응하기 위한 필수적인 아키텍처 전환입니다.
실천 포인트
IDC 기반 레거시 ETL 시스템을 운영 중인 조직에서 GCP / Airflow / Spark 같은 클라우드 기반 오케스트레이션 도구를 도입하면 새로운 데이터 원천을 신속하게 추가할 수 있고, BigQuery 같은 분석 도구를 통해 데이터 활용 범위를 확장할 수 있습니다.