뱅크샐러드 Data Discovery Platform의 시작

뱅크샐러드 Data Engineering팀이 LinkedIn Datahub를 도입해 분석 환경의 메타데이터 검색·조회 문제를 중앙집중식 플랫폼으로 해결

2021년 9월 15일10분intermediate

AI 요약

Context

뱅크샐러드의 분석 환경에는 수많은 테이블과 컬럼이 존재하지만, 각 데이터의 의미와 통계 정보를 파악하기 위해 Data Engineering팀에 Slack으로 문의하거나 SQL을 직접 실행해야 했다. SQL에 능숙하지 않은 팀원들은 원하는 데이터를 찾는 데 오래 걸렸고, 불필요하게 업무가 커지는 문제가 발생했다. 분석 환경 데이터가 계속 변경되면서 메타데이터를 수동으로 동기화하는 것도 비효율적이었다.

Technical Solution

Datahub 도입 및 선택 기준: LinkedIn과 Lyft의 오픈소스 Data Discovery Platform(Datahub, Amundsen)을 1주일 동안 조사 및 PoC한 후 구성원 투표를 통해 Datahub을 85% 지지도로 선택(UI가 개발자가 아닌 직군도 쉽게 사용 가능한 점이 핵심)
Datahub Ingestion 자동화: Airflow DAG으로 메타데이터 수집 파이프라인 관리, MySQL과 AWS Glue 같은 소스에서 메타데이터를 정기적으로 자동 수집하여 Datahub REST API로 전송
Recipe 기반 메타데이터 선언: YAML 형식의 Recipe로 메타데이터 수집 대상, 가공 방식, 전송 경로를 선언하여 메타데이터 수집 설정을 코드화
Datahub SQL Profile 활용: 각 테이블의 컬럼 통계 정보(행 수, NULL/min/max 값), 샘플 데이터를 쿼리 실행 없이 조회 가능하게 구성
Datahub Lineage 기능: 테이블의 출처와 변환 과정을 시각적으로 추적, Airflow와 연결하여 파이프라인의 Task 흐름도 함께 표시

Impact

아티클에 정량적 수치가 명시되어 있지 않습니다.

Key Takeaway

데이터 팀이 단순히 파이프라인만 구축하는 것이 아니라 비기술직군도 데이터를 접근 가능하게 하는 중앙 플랫폼을 제공할 때, 조직 전체의 데이터 기반 의사결정 문화를 확대할 수 있다. Kubernetes 기반 인프라에서 Helm 차트를 활용한 배포와 Airflow 오케스트레이션을 조합하면 메타데이터 수집을 지속 가능하게 관리할 수 있다.

실천 포인트

다중 데이터 소스(MySQL, AWS Glue, Snowflake 등)를 보유한 데이터 조직에서 Datahub 같은 오픈소스 Data Discovery Platform을 Kubernetes 환경에 Helm으로 배포하고, Airflow DAG으로 메타데이터 Ingestion을 자동화하면, Slack 문의 없이 검색 기능만으로 테이블 명세·통계·Lineage를 빠르게 확인할 수 있어 데이터 분석 준비 시간을 단축할 수 있다.

태그

#Data Discovery #Datahub #Data Engineering #Metadata Management #Airflow

원문 읽기