피드로 돌아가기
InfoQInfrastructure
원문 읽기
초당 1억 샘플 처리, OTLP 기반 메트릭 파이프라인 전환으로 비용 10배 절감
Airbnb Migrates High-Volume Metrics Pipeline to OpenTelemetry
AI 요약
Context
StatsD 및 자체 Veneur 기반 파이프라인의 확장성 한계와 벤더 종속적 비용 상승 발생. 특히 UDP 전송 방식의 패킷 손실 위험과 고차원 메트릭 집계 효율 저하가 주요 병목 지점으로 작용.
Technical Solution
- StatsD와 OTLP를 동시 전송하는 Dual-emit 라이브러리 적용을 통한 무중단 마이그레이션 구현
- vmagent 기반의 2계층 집계 구조(Stateless Router → Stateful Aggregator) 설계로 수평 확장성 확보
- 고차원 메트릭 인스턴스의 메모리 압박 해결을 위해 AggregationTemporalitySelector.deltaPreferred() 설정 도입
- Prometheus의 Counter Reset 문제를 해결하고자 vmagent 단계에서 최초 전송 시 합성 제로를 삽입하는 Zero Injection 기법 적용
- Prometheus 기반 스택의 스토리지 비용 최적화를 위해 vmagent의 Streaming Aggregation을 통한 인스턴스 레이블 제거
실천 포인트
1. 고차원 메트릭으로 인한 메모리 릭 발생 시 Delta Temporality 적용 검토
2. Prometheus 기반 Counter 사용 시 저빈도 이벤트의 데이터 누락 가능성 및 Zero-initialization 전략 확인
3. 벤더 전환 시 데이터 검증을 위한 Dual-write 패턴 활용
4. TSDB 저장 비용 절감을 위해 Recording Rules 대신 수집 단계의 Streaming Aggregation 고려