초당 10억 건 이벤트 처리를 위한 Trino-Iceberg 기반 Unified Data Lakehouse 구축

How we built Cloudflare's data platform and an AI agent on top of it

Matt Moen2026년 5월 28일16분advanced

AI 요약

Context

Postgres, ClickHouse, BigQuery 등 파편화된 저장소로 인한 Data Sprawl 발생 및 Tribal Knowledge 의존도 심화. 700M+ TPS 처리를 위한 Downsampling 데이터와 정밀한 Billing용 데이터의 공존 필요성에 따른 분석 일관성 결여.

Technical Solution

Apache Trino 도입을 통한 이기종 데이터 소스(Postgres, ClickHouse, Iceberg) 간의 Single SQL Interface 및 분산 Join 구현
Apache Iceberg 기반 R2 Data Catalog 구축으로 Schema Evolution 및 데이터 수명 주기에 따른 자동 Compact 전략 적용
R2 Storage, Workers Compute, Cloudflare Access 인증 체계를 결합한 In-house Infrastructure 기반 Lakehouse 설계
데이터 거버넌스 강화를 위한 Per-row Access Control, PII 자동 탐지 및 Time-bound Credential 부여 메커니즘 적용
LLM 기반 AI Agent 'Skipper'와 Memory Layer를 결합하여 자연어 쿼리 변환 및 반복적 수정 사항의 지속적 학습 구조 설계
.meta.json 기반의 Self-serve Data Engineering 파이프라인을 통해 데이터 큐레이션부터 배포까지의 Workflow 자동화

실천 포인트

1. 분산된 데이터 소스를 통합할 때 ETL 기반 통합 전 Trino와 같은 Federated Query 엔진으로 데이터 가시성 우선 확보

2. 데이터 수명 주기에 따라 Grain(분->시->일)을 조정하는 Partition Evolution 전략 검토

3. AI Agent 도입 시 단순 Prompting이 아닌 도메인 지식 저장을 위한 별도의 Memory Layer 설계 반영

4. 인프라 구축 시 내부 서비스의 Dogfooding을 통해 제품 경쟁력과 내부 생산성을 동시에 검증

태그

#AI Agent #Data Lakehouse #Apache Iceberg #Federated Query #Apache Trino

원문 읽기