피드로 돌아가기
GenAIOps on AWS: End-to-End Observability Stack - Part 3
Dev.toDev.to
AI/ML

CloudWatch GenAI Observability와 OpenTelemetry를 활용해 LLM 애플리케이션의 토큰 소비, 검색 품질, 지연 시간, 비용을 엔드투엔드로 추적하는 방법

GenAIOps on AWS: End-to-End Observability Stack - Part 3

Shoaibali Mir2026년 3월 30일38intermediate

Context

기존 모니터링 시스템은 HTTP 200 응답만 확인하며 토큰 소비량, 검색 품질, 환각 증상, 모델별 비용 등 GenAI 특유의 문제를 포착하지 못한다. GenAI 요청은 성공 응답을 반환하지만 Retrieved wrong documents, hallucination, Cost spiked, Latency 8s 등의 이유로 사용자 불만족이 발생한다.

Technical Solution

  • CloudWatch GenAI Observability의 Model Invocation Dashboard로 모델별 호출 횟수, 토큰 사용량, 비용, 지연 시간, 에러율을 자동 추적
  • AgentCore Agent Dashboard로 세션 추적, 도구 호출 빈도, 메모리 작업, 추론 트레이스 등 Bedrock 에이전트 활동 모니터링
  • AWS Distro for OpenTelemetry(ADOT)를 통해 분산 트레이싱 설정과 자동 계측 구성
  • RAG 시스템에 OpenTelemetry span을 적용하여 generate_embeddings, vector_search, rerank_documents, generate_response 각 단계별 지연 시간과 메트릭 캡처
  • RetrievalQuality, TokenUsage, ResponseQuality 등 CloudWatch 커스텀 메트릭으로 검색 유사도 점수와 응답 품질 측정

Impact

엔드투엔드 요청 추적으로 3AM 장애 대응 시 10,000줄 로그에서 특정 컴포넌트 병목 지점 즉시 식별 가능

Key Takeaway

GenAI observability는 성공/실패 이분법을 넘어 품질, 비용, 성능을 각 단계별로 측정해야 하며 Traces와 Metrics와 Logs를 통합된 뷰로 제공해야 한다.


Amazon Bedrock 기반 RAG 애플리케이션에서 OpenTelemetry tracer와 CloudWatch 메트릭을 단계별 span instrumentation으로 적용 시 검색 품질 점수, 토큰 비용, 응답 지연 시간의 엔드투엔드 가시성 확보 가능

원문 읽기