피드로 돌아가기
AI agents are opaque. Jaeger v2 + OTel GenAI conventions are the fix.
Dev.toDev.to
Infrastructure

OTel Native 기반 Jaeger v2 도입을 통한 AI Agent 추적 가시성 확보

AI agents are opaque. Jaeger v2 + OTel GenAI conventions are the fix.

Andrew Kew2026년 4월 26일3intermediate

Context

AI Agent의 비동기 LLM 호출 및 Tool Invocation으로 인한 분산 시스템 복잡성 증가. 기존 Observability 도구의 파편화된 로그 및 대시보드 중심 구조로 인한 전체 실행 경로 추적 불가 및 블랙박스 현상 발생.

Technical Solution

  • OpenTelemetry Collector framework를 코어 엔진으로 채택한 내부 아키텍처 전면 교체
  • OTLP Native Ingestion 도입을 통한 데이터 변환 레이어 제거 및 데이터 손실 방지
  • 개별 컴포넌트로 분리되었던 Agent, Collector, Ingester, Query를 단일 Binary 구조로 통합하여 운영 복잡도 해소
  • OTel contrib processor 기반의 Tail-based sampling을 표준 기능으로 내재화하여 효율적인 스팬 필터링 구현
  • GenAI Semantic Conventions 적용을 통해 LLM Inference, Reasoning Loop, Tool Call의 표준화된 스팬 모델 정의
  • Model Context Protocol(MCP) 초안 반영을 통한 도구 호출 과정의 1급 스팬(First-class Span) 처리

1. AI Agent 설계 시 LangChain, LlamaIndex 등 OTel 지원 SDK의 Instrumentation 상태 확인

2. GenAI Semantic Conventions를 적용하여 Token 수, Latency, Model Name 등 표준 메트릭 정의

3. Jaeger v2의 단일 Binary 구조를 활용한 인프라 단순화 및 OTLP 파이프라인 구축 검토

4. Tail-based sampling 설정을 통한 비용 최적화 및 핵심 에러 경로 집중 모니터링 구현

원문 읽기