피드로 돌아가기
Data pipeline around 15 minute city
Dev.toDev.to
Infrastructure

OSM 데이터 기반 15분 도시 분석을 위한 Spark-dbt 데이터 파이프라인 구축

Data pipeline around 15 minute city

Ajay Katte2026년 4월 19일1intermediate

Context

도시 내 접근성 분석을 위한 15분 도시 개념의 데이터 모델 구현 필요성 대두. Open Street Maps(OSM)의 방대한 지리 공간 데이터를 처리하기 위한 효율적인 Ingestion 및 Transformation 구조 설계가 핵심 과제임.

Technical Solution

  • Open Street Maps 데이터를 소스로 활용한 지리 정보 Ingestion 단계 구축
  • Spark를 통한 대규모 데이터 분산 처리 및 전처리 수행
  • dbt 기반의 Modular SQL 설계를 통한 데이터 변환 로직의 정형화
  • Airflow를 활용한 전체 워크플로우의 스케줄링 및 파이프라인 Orchestration 자동화
  • Streamlit을 통한 분석 결과의 실시간 시각화 및 Dashboard 서빙
  • 임의 가중치 기반의 Scoring Logic을 적용한 도시 접근성 수치화

1. 대규모 공간 데이터 처리 시 Spark와 dbt의 조합을 통한 ETL 프로세스 분리 검토

2. 분석 지표의 객관성 확보를 위한 Scoring Model의 과학적 근거 수립 및 검증

3. 데이터 파이프라인의 가시성 확보를 위한 전용 Dashboard 도구 도입

원문 읽기