피드로 돌아가기
Dev.toInfrastructure
원문 읽기
LLM Span 폭증으로 인한 Datadog 비용 $0 달성 Self-hosted 전환
From $50K/Year of Datadog to $0/Year of Self-Hosted Observability: The Migration Every Team Is Doing in 2026
AI 요약
Context
LLM Agent 도입에 따른 Span 발생량의 기하급수적 증가로 기존 SaaS 기반 Observability 비용 모델의 한계 노출. 사용자 증가 속도보다 Telemetry 데이터 생성 속도가 빠른 구조적 불균형으로 인한 비용 급증 상황.
Technical Solution
- OpenTelemetry Collector 도입을 통한 OTLP 표준 기반의 데이터 수집 및 전송 계층 단일화
- ClickHouse의 Columnar Storage를 활용한 대규모 Trace 데이터의 고효율 압축 저장 및 SQL 기반 쿼리 성능 확보
- Tail Sampling 전략을 적용하여 Error 및 Slow Trace는 100% 유지하고 일반 Trace는 5%만 샘플링함으로써 데이터 볼륨 80% 절감
- Grafana ClickHouse DataSource 플러그인을 통한 데이터 시각화 및 모니터링 파이프라인 구축
- Langfuse 통합을 통한 LLM 특화 Trace Explorer 기능 구현 및 데이터 주권 확보
- GenAI Semantic Conventions v1.37 표준 준수를 통한 코드 수정 없는 DNS 기반의 빠른 마이그레이션 수행
실천 포인트
1. 연간 LLM Observability 비용 $30K 초과 여부 확인
2. 전담 플랫폼 엔지니어링 리소스 확보 가능성 검토
3. OpenTelemetry Collector의 Tail Sampling 정책 설정 및 데이터 유실 허용 범위 정의
4. ClickHouse의 디스크 풀 및 Collector OOM 대응 런북 작성
5. Grafana Alerting을 통한 기존 Datadog 모니터링 지표 이관