피드로 돌아가기
Hacker NewsHacker News
Infrastructure

eBPF 기반 MCP-native 구조로 GPU 성능 분석 30초 내 완료

MCP as Observability Interface: Connecting AI Agents to Kernel Tracepoints

2026년 4월 15일6advanced

Context

기존 Observability 플랫폼을 MCP로 래핑하는 방식은 데이터 집계 과정에서 세밀한 정보가 소실되는 한계 존재. 단순 지표 확인을 넘어선 Root-cause 분석을 위해서는 가공되지 않은 Raw Telemetry에 대한 직접적인 접근 권한 필요.

Technical Solution

  • eBPF 기반 Agent를 통한 CUDA Runtime 및 Driver API의 uprobes 추적 구조 설계
  • 집계 서버를 거치지 않고 SQLite에 Raw 이벤트를 저장하여 데이터 손실 최소화
  • MCP 서버를 단순 Adapter가 아닌 primary interface로 정의하여 AI Agent에 직접 노출
  • get_trace_stats, get_causal_chains 등 7개 전용 Tool을 통한 데이터 드릴다운 경로 제공
  • eBPF 인프라를 활용해 MCP Tool 호출 이벤트까지 동일 파이프라인으로 캡처하는 보안 모델 적용
  • 데이터 집계 단계를 생략하고 AI Agent가 직접 분석 및 집계 방식을 결정하는 구조 채택

1. AI Agent용 인터페이스 설계 시 단순 API 래핑보다 데이터 원천에 가까운 Native 접근 권한 검토

2. 고해상도 분석이 필요한 시스템의 경우 eBPF 기반의 Raw Event 캡처 도입 고려

3. MCP 서버 도입 시 정적 Secret 의존성을 제거하고 호출 패턴에 대한 Observability 확보

원문 읽기