피드로 돌아가기
Dev.toInfrastructure
원문 읽기
S3 기반 분산 쿼리 아키텍처로 Petabyte-scale 로그 검색 및 비용 50% 절감
Breaking Logging's Flywheel of Compromises
AI 요약
Context
기존 로깅 시스템의 비용, 커버리지, 복잡성 사이의 상충 관계(3C Flywheel)로 인한 가시성 저하 발생. 특히 AI 시대의 대규모 Nested Event 데이터 처리 시 기존 Compute-Storage 결합 구조의 확장성 한계 노출.
Technical Solution
- OpenTelemetry, FluentD 기반 Ingestion Layer와 AWS MSK를 통한 데이터 버퍼링 구조 채택
- 데이터 분석 기법인 Columnar-based format, Bloom filtering, Partitioning을 적용한 S3 저장 최적화
- 메타데이터의 DynamoDB 분리 저장으로 쿼리 대상 데이터 식별 속도 향상
- 쿼리 요청 시 Lambda 함수를 병렬 실행하여 S3 데이터를 직접 처리하는 Serverless Query Engine 설계
- 상시 가동 클러스터를 제거하고 요청 시에만 리소스를 사용하는 On-demand Scaling 방식으로 비용 구조 혁신
Impact
- 월 데이터 수집량 40TB에서 60TB로 확대 및 로깅 비용 50% 절감
- 30분 이상 소요되던 복잡한 멀티데이 쿼리 시간을 Subsecond 단위로 단축
- 로그 보관 주기 1~2일에서 90일 Hot Retention으로 확장
Key Takeaway
Compute와 Storage를 완전히 분리하고 S3를 데이터 레이크로 활용함으로써, 성능 저하 없이 비용 효율적인 대규모 데이터 처리 시스템 구축 가능.
실천 포인트
- 대규모 로그 처리 시 인덱싱 비용을 줄이기 위한 Columnar Storage 도입 검토 - 상시 가동 인스턴스 대신 Lambda 기반의 분산 쿼리 모델을 통한 비용 최적화 가능성 분석 - 데이터 필터링 효율을 높이기 위한 Bloom Filter 및 Partitioning 전략 수립