eBPF와 MCP 기반 GPU 클러스터 가시성 확보 및 <2% 오버헤드 달성

From TCP Retransmits to MCP-Driven Cluster Investigations: An eBPF GPU Agent Retrospective

Ingero Team2026년 5월 14일9분advanced

AI 요약

Context

분산 GPU 학습 환경에서 개별 호스트 단위의 nvidia-smi 및 커널 신호만으로는 클러스터 전체의 병목 지점인 Slow Rank를 식별하기 어려움. 특히 NCCL Collective 통신 지연은 유저랜드에서 발생하여 kprobe 기반의 커널 모니터링으로는 정확한 원인 분석이 불가능한 한계가 존재함.

Technical Solution

kprobe에서 uprobe로의 전환을 통해 libnccl.so에 직접 attach 하여 Collective call의 op_type, duration_ms 등 정밀한 트레이스 데이터 추출
정적 링크된 PyTorch wheel 대응을 위해 /proc//maps 탐색 후 libtorch_cuda.so 등 대체 라이브러리 폴백 메커니즘 설계
개별 호스트의 분산 데이터를 통합하기 위해 DuckDB 기반의 이벤트 스토어를 갖춘 Ingero Echo를 StatefulSet으로 배치하여 클러스터 뷰 구현
LLM 기반의 엔드투엔드 조사를 위해 MCP(Model Context Protocol) 서버를 구축하여 fleet.cluster.find_outlier_nodes 등 도메인 특화 도구 제공
임의 SQL 쿼리로 인한 보안 취약점을 방지하고자 Lexical Pass 기반의 sqlguard를 도입하여 파일 시스템 접근 및 위험 키워드 차단
DuckDB WAL 파일의 동시 쓰기 오염을 방지하기 위해 flock(2)를 활용한 쓰기 잠금 제어 적용

실천 포인트

- 분산 시스템 병목 분석 시 커널 신호와 유저랜드 라이브러리 호출을 결합한 입체적 트레이싱 검토 - LLM 기반 인프라 제어 시 SQL Injection 방지를 위한 Lexical Analysis 기반의 쿼리 게이트웨이 적용 - StatefulSet 기반의 로컬 DB 스토어를 활용한 고밀도 이벤트 수집 및 실시간 분석 아키텍처 고려

태그

#MCP #GPU Cluster #NCCL #eBPF #DuckDB

원문 읽기