Sentry·Langfuse·LangGraph 조합을 통한 40개 Agent Fleet의 가시성 확보 및 품질 관리

Three Tools, Three Layers: Sentry, Langfuse, and LangGraph for Multi-Agent Fleets

Matthias Meyer2026년 5월 2일8분advanced

AI 요약

Context

단일 LLM 호출과 달리 다수의 Agent가 협업하는 Multi-agent 시스템은 내부 동작 과정이 불투명한 Black box 구조를 가짐. 특히 MCP 서버의 JSON-RPC 에러 처리 방식과 장기 실행 워크플로우의 상태 관리 부재로 인해 시스템 헬스 체크 및 품질 추적이 어려운 한계가 존재함.

Technical Solution

Sentry 도입을 통한 MCP 서버의 JSON-RPC 기반 Silent Error 탐지 및 OpenTelemetry 표준 기반의 GenAI Semantic Conventions 준수 설계
Token Volume을 단순 비용 지표가 아닌 LLM Drift를 감지하는 품질 프록시(Quality Proxy)로 활용하여 성능 저하 사전 포착
Langfuse의 LLM-as-judge 및 Goldsets 기반 자동 평가 체계를 구축하여 Agent 응답 품질의 정량적 측정 및 버전별 A/B 테스트 수행
LangGraph를 활용한 Stateful Workflow 설계로 subprocess crash 시 전체 재시작 없이 마지막 Checkpoint부터 Resume 하는 구조 구현
Prompt를 코드에서 분리하여 버전 관리 및 원클릭 롤백이 가능한 외부 관리 체계 구축을 통해 배포 리스크 최소화
도구별 책임 분리를 통해 System Health(Sentry), Run Quality(Langfuse), Workflow State(LangGraph)의 Orthogonal Layer 구성

실천 포인트

- MCP 서버 사용 시 Exception이 아닌 JSON-RPC 응답 내 에러가 누락되고 있지 않은지 확인 - LLM 응답 품질 측정을 위해 정답 셋(Goldsets)을 구축하고 LLM-as-judge 평가 파이프라인을 도입했는가 - 토큰 소비량의 급격한 변화를 모델 Drift의 전조 증상으로 모니터링하고 있는가 - Human-in-the-loop이 필요한 긴 호흡의 워크플로우에 Checkpoint 및 Resume 메커니즘이 설계되었는가

태그

#Stateful Workflow #MCP #LLM-as-judge #OpenTelemetry #Multi-Agent-System

원문 읽기