피드로 돌아가기
From TCP Retransmits to MCP-Driven Cluster Investigations: An eBPF GPU Agent Retrospective
Dev.toDev.to
Infrastructure

eBPF와 MCP 기반 GPU 클러스터 가시성 확보 및 <2% 오버헤드 달성

From TCP Retransmits to MCP-Driven Cluster Investigations: An eBPF GPU Agent Retrospective

Ingero Team2026년 5월 14일9advanced

Context

분산 GPU 학습 환경에서 개별 호스트 단위의 nvidia-smi 및 커널 신호만으로는 클러스터 전체의 병목 지점인 Slow Rank를 식별하기 어려움. 특히 NCCL Collective 통신 지연은 유저랜드에서 발생하여 kprobe 기반의 커널 모니터링으로는 정확한 원인 분석이 불가능한 한계가 존재함.

Technical Solution

  • kprobe에서 uprobe로의 전환을 통해 libnccl.so에 직접 attach 하여 Collective call의 op_type, duration_ms 등 정밀한 트레이스 데이터 추출
  • 정적 링크된 PyTorch wheel 대응을 위해 /proc//maps 탐색 후 libtorch_cuda.so 등 대체 라이브러리 폴백 메커니즘 설계
  • 개별 호스트의 분산 데이터를 통합하기 위해 DuckDB 기반의 이벤트 스토어를 갖춘 Ingero Echo를 StatefulSet으로 배치하여 클러스터 뷰 구현
  • LLM 기반의 엔드투엔드 조사를 위해 MCP(Model Context Protocol) 서버를 구축하여 fleet.cluster.find_outlier_nodes 등 도메인 특화 도구 제공
  • 임의 SQL 쿼리로 인한 보안 취약점을 방지하고자 Lexical Pass 기반의 sqlguard를 도입하여 파일 시스템 접근 및 위험 키워드 차단
  • DuckDB WAL 파일의 동시 쓰기 오염을 방지하기 위해 flock(2)를 활용한 쓰기 잠금 제어 적용

- 분산 시스템 병목 분석 시 커널 신호와 유저랜드 라이브러리 호출을 결합한 입체적 트레이싱 검토 - LLM 기반 인프라 제어 시 SQL Injection 방지를 위한 Lexical Analysis 기반의 쿼리 게이트웨이 적용 - StatefulSet 기반의 로컬 DB 스토어를 활용한 고밀도 이벤트 수집 및 실시간 분석 아키텍처 고려

원문 읽기