Docker 기반 GPU VRAM 점유 모델 식별을 위한 경량 모니터링 대시보드 구축

I got tired of guessing which model holds my VRAM, so I built a tiny dashboard

Arsen Apostolov2026년 5월 26일1분intermediate

AI 요약

Context

NVIDIA GPU 환경에서 다수의 Docker 컨테이너와 LLM 서버(Ollama, vLLM 등) 운영 중 VRAM 점유 모델 식별을 위한 수동 분석 과정의 비효율성 발생. Prometheus-Grafana-DCGM-Exporter로 이어지는 무거운 스택이 단일 노드 환경에서 과도한 리소스 오버헤드를 유발하는 한계점 노출.

Technical Solution

nvidia-smi PID 기반의 cgroup 추적을 통한 Docker 컨테이너 자동 매핑 구조 설계
Ollama(/api/ps), vLLM(/v1/models) 등 개별 모델 서버 API 쿼리를 통한 로드 모델 식별 로직 구현
데이터 저장소로 SQLite를 채택하여 무거운 시계열 데이터베이스 의존성 제거
Read 시점에 데이터 Downsampling을 수행하여 저장 공간 효율성과 쿼리 성능 최적화
Docker Compose 기반의 단일 컨테이너 배포 체계를 통한 인프라 복잡도 최소화

실천 포인트

1. 모니터링 대상의 규모와 목적에 맞는 스택 선정 여부 검토

2. 외부 메트릭 수집기 대신 애플리케이션 자체 API를 활용한 상태 확인 가능성 분석

3. 단일 노드 환경에서 SQLite 및 Downsampling을 통한 경량 데이터 파이프라인 적용 검토

태그

#Docker #LLM-Server #GPU Monitoring #SQLite #VRAM

원문 읽기