피드로 돌아가기
Dev.toAI/ML
원문 읽기
Honeycomb Trace 기반 AI Agent 가시성 확보 및 블랙박스 해소
How to add Honeycomb traces to your AI Slack bot
AI 요약
Context
Slack 기반 AI Agent의 실행 과정이 최종 메시지만 출력되는 블랙박스 구조로 동작하여 내부 장애 진단이 불가능한 상황. Terminal 로그로는 확인 가능하나, 실제 사용자 경험과 인프라 실행 단계 간의 연결 고리를 추적할 수 있는 통합 관찰 체계 부재.
Technical Solution
- 전체 실행 생명주기를 관장하는 Chat Gateway 계층에 Telemetry를 배치하여 단일 Request당 하나의 Trace를 생성하는 구조 설계
- 인프라 준비(E2B Sandbox)부터 실행(OpenCode)까지의 단계별 Span을 정의하여 병목 지점 및 실패 단계의 즉각적 식별 가능 구조 구축
- 단순 서비스 Span을 넘어 Agent의 추론 과정(User Message, Tool Call, Response)을 Event 형태로 캡처하는 Agent Timeline 아키텍처 적용
- Honeycomb의 전용 뷰 대응을 위해 gen_ai.conversation.id 및 app.run_id 등 표준 속성을 부여한 invoke_agent 전용 Span 설계
- JSON 포맷의 실행 출력을 파싱하여 도구 호출 상태와 토큰 비용, 재시도 마커를 Event로 전송함으로써 내부 로직의 투명성 확보
실천 포인트
1. AI Agent 설계 시 서비스 간 호출을 기록하는 Trace와 모델의 사고 과정을 기록하는 Event를 분리하여 설계했는지 확인
2. 가시성 확보를 위해 최상위 게이트웨이에서 전체 Run ID를 생성하고 하위 모든 Span에 전파하는 구조인지 검토
3. LLM의 Tool Call 및 Retry 횟수 등 정성적 행동 데이터를 정량적 Event로 변환하여 저장하는 파이프라인 구축