피드로 돌아가기
InfoQInfoQ
Infrastructure

OpenTelemetry 기반 Correlated Signals 전환으로 연간 100만 달러 비용 절감

Presentation: Building a Future-Proof Observability Platform to Empower Engineers

Dan Gomez Blanco, Wayne Bell2026년 4월 27일37advanced

Context

Metrics, Traces, Logs가 개별적으로 운영되는 Silo 구조로 인해 분산 시스템의 전체적인 맥락 파악 불가. 서비스 중심의 단편적 모니터링으로 인해 CPU Throttling과 같은 저수준 이슈가 사용자 경험에 미치는 영향을 추적하는 데 한계 발생.

Technical Solution

  • 세 가지 Observability Pillars를 개별 데이터로 처리하던 방식에서 OpenTelemetry 기반의 Correlated Signals 체계로 전환
  • Standard Attribute(예: User ID)를 모든 신호에 일관되게 적용하여 User-centric한 엔드투엔드 추적 구조 설계
  • Exemplars 기능을 도입하여 특정 Metric 데이터 포인트에서 관련 Trace로 즉시 진입 가능한 연결 고리 구현
  • Semantic Conventions를 통한 시스템 기술 방식의 표준화로 벤더 종속성 제거 및 데이터 상호 운용성 확보
  • Trace Context를 Legacy 라이브러리에 주입하는 Instrumentation 전략을 통해 전사적 가시성 확보
  • Continuous Profiling 도입으로 요청 처리 중인 특정 Replica의 Call Stack까지 심층 분석 가능한 파이프라인 구축

- OpenTelemetry의 Semantic Conventions를 적용하여 로그와 트레이스에 공통 식별자를 부여했는가? - Metric의 이상 징후 발견 시 해당 시점의 Trace로 즉시 이동할 수 있는 Exemplars 체계가 구축되었는가? - 벤더별 개별 라이브러리 대신 표준 API Layer를 통해 Observability 도구의 교체 가능성을 확보했는가? - 플랫폼 팀이 기술 표준 강요가 아닌 제품 팀의 페인 포인트를 해결하는 Capability 중심으로 운영되고 있는가?

원문 읽기