피드로 돌아가기
Hacker NewsInfrastructure
원문 읽기
eBPF 기반 MCP-native 구조로 GPU 성능 분석 30초 내 완료
MCP as Observability Interface: Connecting AI Agents to Kernel Tracepoints
AI 요약
Context
기존 Observability 플랫폼을 MCP로 래핑하는 방식은 데이터 집계 과정에서 세밀한 정보가 소실되는 한계 존재. 단순 지표 확인을 넘어선 Root-cause 분석을 위해서는 가공되지 않은 Raw Telemetry에 대한 직접적인 접근 권한 필요.
Technical Solution
- eBPF 기반 Agent를 통한 CUDA Runtime 및 Driver API의 uprobes 추적 구조 설계
- 집계 서버를 거치지 않고 SQLite에 Raw 이벤트를 저장하여 데이터 손실 최소화
- MCP 서버를 단순 Adapter가 아닌 primary interface로 정의하여 AI Agent에 직접 노출
- get_trace_stats, get_causal_chains 등 7개 전용 Tool을 통한 데이터 드릴다운 경로 제공
- eBPF 인프라를 활용해 MCP Tool 호출 이벤트까지 동일 파이프라인으로 캡처하는 보안 모델 적용
- 데이터 집계 단계를 생략하고 AI Agent가 직접 분석 및 집계 방식을 결정하는 구조 채택
실천 포인트
1. AI Agent용 인터페이스 설계 시 단순 API 래핑보다 데이터 원천에 가까운 Native 접근 권한 검토
2. 고해상도 분석이 필요한 시스템의 경우 eBPF 기반의 Raw Event 캡처 도입 고려
3. MCP 서버 도입 시 정적 Secret 의존성을 제거하고 호출 패턴에 대한 Observability 확보