피드로 돌아가기
Observability for Agentic Systems: Why Your Dashboards Are Lying to You
Dev.toDev.to
AI/ML

전통적 Tracing 한계를 극복한 Agentic System 전용 Observability 설계 전략

Observability for Agentic Systems: Why Your Dashboards Are Lying to You

PracticeOverflow2026년 4월 12일13advanced

Context

기존 HTTP Request-Response 기반의 Tree 구조 Tracing으로는 루프와 분기가 빈번한 Agent의 Directed Graph 형태 워크플로우를 추적하기 어려움. 특히 상태 유지 세션과 프로토콜 경계를 넘나드는 Tool Call로 인해 기존 Trace ID 스코핑 방식의 한계 노출.

Technical Solution

  • OpenTelemetry gen_ai.* Semantic Conventions 채택을 통한 모델명, Token 수, Prompt 및 Tool 호출 메타데이터의 Span 통합
  • MCP(Model Context Protocol) 서버 경계 간 W3C Context Propagation 구현을 통한 JSON-RPC 기반 프로토콜 가시성 확보
  • Discord의 Envelope 패턴 도입으로 메시지 외곽에 Trace Context와 Causal Metadata를 래핑하여 Actor 모델 기반 분산 추적 구현
  • Fanout-aware Sampling 전략을 적용하여 단일 수신자는 100%, 10K 이상 대규모 Fanout은 0.1%로 샘플링률을 조정하여 데이터 폭증 방지
  • Reasoning Budget 초과 및 저신뢰 출력 케이스에 대해 100% Full-fidelity 데이터를 보존하는 조건부 리텐션 전략 수립
  • Token Cost를 1차 Observability Signal로 정의하여 추론 패턴 변화를 조기에 감지하는 모니터링 체계 구축

- 단순 Auto-instrumentation(60%) 외에 추론 단계와 Tool 선택 로직에 Manual Span 추가 적용 - Trace ID 범위를 단일 요청이 아닌 전체 대화 세션 단위로 확장하여 스코핑 재설정 - Token 사용량 급증을 시스템 이상 징후의 선행 지표로 설정하여 대시보드 구성 - 분산 환경 내 메시지 전달 시 Context 유실 방지를 위한 Envelope 패턴 검토

원문 읽기