피드로 돌아가기
When does Iceberg beat Parquet+projection on AWS Glue, and when doesn't ?
Dev.toDev.to
Database

Iceberg와 Parquet Partition Projection의 쿼리 성능 및 운영 효율 비교 분석

When does Iceberg beat Parquet+projection on AWS Glue, and when doesn't ?

Alessandra Bilardi2026년 5월 10일15advanced

Context

AWS Glue 환경에서 대규모 데이터 적재 시 Partition 등록 비용과 쿼리 성능 간의 Trade-off 발생. 기존 Crawler 기반의 Partition 등록 방식은 API Rate Limit 및 관리 공수 증가라는 한계점을 가짐.

Technical Solution

  • Athena 전용 Partition Projection 도입을 통한 Glue Catalog의 GetPartitions 호출 제거 및 메모리 기반 파티션 계산 구조 설계
  • Iceberg와 Parquet+Projection 두 가지 저장 포맷을 병렬로 구성하여 데이터 흐름과 쿼리 결과의 일관성 검증
  • Glue Streaming 기반의 Micro-batch 처리와 z-score 알고리즘을 활용한 실시간 Anomaly Detection 파이프라인 구축
  • Wheel 패키징 및 3-line wrapper 구조를 통한 Glue Job의 로직 분리와 Pytest 기반의 TDD 환경 확보
  • Boto3 기반 Custom Producer 설계를 통한 Stable, Trend, Spike 등 시나리오별 제어 가능한 테스트 데이터 생성

1. Athena 단독 쿼리 환경인가? $\rightarrow$ Partition Projection 검토

2. Spark, Redshift 등 다양한 엔진의 접근이 필요한가? $\rightarrow$ Iceberg 도입 검토

3. Glue Job의 테스트 자동화가 필요한가? $\rightarrow$ Wheel 패키징과 Wrapper 구조 적용

4. Sub-second Latency가 필수적인가? $\rightarrow$ Glue Streaming 대신 Apache Flink 검토

원문 읽기