피드로 돌아가기
Dev.toDevOps
원문 읽기
OTLP 기반 Claude Code 메트릭의 Prometheus-Grafana 통합 및 가시성 확보
A Grafana dashboard for Claude Code on Prometheus
AI 요약
Context
Claude Code가 OTLP 표준 메트릭을 발행함에도 불구하고, Prometheus-Grafana 스택을 사용하는 환경에서 이를 시각화할 전용 대시보드 부재 기존 KQL 기반 Azure Application Insights 대시보드를 PromQL로 포팅하여 OSS 관찰성 스택과의 호환성 확보 필요
Technical Solution
- Claude Code → OTLP → OTel Collector → Prometheus로 이어지는 데이터 파이프라인 구축
- KQL 쿼리 로직을 PromQL로 재설계하여 Prometheus, VictoriaMetrics, Mimir, Thanos 등 호환 백엔드 지원
- OTEL_RESOURCE_ATTRIBUTES 활용을 통한 팀, 프로젝트, 비용 센터 단위의 커스텀 Label링 체계 구현
- Prometheus Exporter의 resource_to_telemetry_conversion 설정을 통한 속성 기반 라벨 유실 방지
- OTEL_EXPORTER_OTLP_METRICS_TEMPORALITY_PREFERENCE를 cumulative로 명시하여 카운터 데이터 정합성 유지
- 세션, 토큰 비용, 캐시 적중률 등 비용 최적화 판단을 위한 5개 핵심 KPI 섹션 구성
실천 포인트
- OTLP 메트릭 수집 시 SDK 버전별 Temporality 기본값 차이로 인한 데이터 왜곡 가능성 확인 - 인프라 태그 부재 시 OTEL_RESOURCE_ATTRIBUTES를 통해 런타임에 도메인 특화 라벨 주입 검토 - OTel Collector의 Prometheus exporter 설정에서 Resource 속성의 라벨 변환 활성화 여부 체크 - 클라이언트 사이드 추정 비용과 실제 빌링 데이터 간의 오차 범위를 고려한 모니터링 설계