피드로 돌아가기
InfoQBackend
원문 읽기
Presentation: Data Mesh in Action: A Journey From Ideation to Implementation
Horse Powertrain이 중앙 집중식 데이터팀의 병목을 Data Mesh 아키텍처로 전환해 각 도메인 팀의 데이터 자율성 확보
AI 요약
Context
중앙 집중식 데이터팀이 수백 개의 소스 애플리케이션(MySQL, SQL Server, Oracle, SaaS, Excel 등)에서 데이터를 수집하면서 ETL 파이프라인 유지보수에 대부분의 시간을 소진했다. 소스 데이터의 컬럼 이름 변경, 구분자 오류 등 사소한 변경이 전체 파이프라인을 중단시키는 취약성으로 인해 데이터팀이 비즈니스 가치 창출보다 인프라 운영에 집중하게 되었다.
Technical Solution
- Data Mesh 패러다임 도입: 데이터 소유권을 각 도메인 팀으로 분산하여 중앙 데이터팀의 병목 제거
- Lakehouse 플랫폼 기반 구축: Azure Blob Storage에 데이터를 저장하고 Databricks로 처리
- Delta Lake 포맷 표준화: Databricks가 S3/Azure Blob Storage에 저장된 데이터를 Delta Lake 형식으로 관리 (Apache Hudi, Apache Iceberg 등 오픈소스 대안도 지원)
- 2단계 수집 프로세스: Azure Data Factory로 소스 시스템(MySQL, SQL Server, Oracle 등)에서 데이터를 Blob Storage로 추출 후 Databricks에서 처리
- Serverless 컴퓨팅 모델 활용: Databricks 파이프라인 실행 시 Serverless 모드로 사용량만큼 비용 청구 (예: 1시간 실행 시 1시간분만 결제)
실천 포인트
수백 개 이상의 데이터 소스를 관리하는 엔터프라이즈 조직에서 Databricks의 Serverless 모드와 Delta Lake 포맷을 활용하면, 각 도메인 팀이 데이터 파이프라인을 자율적으로 관리하면서도 컴퓨팅 비용을 사용량 기반으로 최적화할 수 있다.