Tesla P40 24GB VRAM 기반의 저비용 고효율 LLM 추론 환경 구축

Tesla P40 in a Homelab: 24GB of Inference on a Budget

Guatu2026년 5월 25일7분intermediate

AI 요약

Context

Proxmox 환경에서 Tesla P40의 24GB VRAM을 활용해 Qwen2.5:32B 등 대규모 모델 추론을 시도함. 일반적인 GPU Passthrough 방식 채택 시 P40의 Function Level Reset(FLR) 부재로 인한 QEMU assertion error 및 시스템 불안정성 발생함.

Technical Solution

가상화 계층의 Translation Layer 제거를 위한 Host-level Inference 구조로 전환함
vfio-pci 격리를 해제하고 Proxmox 호스트에 NVIDIA 535 드라이버를 직접 설치하여 하드웨어 제어권 확보함
컨테이너 오버헤드를 최소화하기 위해 Ollama를 systemd 서비스로 배포하여 커널 수준의 직접 접근 경로 설계함
VRAM 고갈로 인한 Hallucination 방지를 위해 4-bit Quantization 적용 및 Context Window 제한 전략 수립함
Passive Cooling 구조의 Thermal Throttling 방지를 위해 3D-printed shroud 및 고RPM 팬을 통한 강제 냉각 체계 구축함
Host-level 실행에 따른 모니터링 공백 해결을 위해 nvidia_gpu_exporter를 단독 바이너리로 실행하여 Prometheus 연동함

실천 포인트

1. Tesla P40 등 FLR 미지원 GPU 사용 시 VM Passthrough 대신 Host-level 실행 검토

2. 추론 성능 최적화를 위해 단순 CUDA 코어 수가 아닌 VRAM 가용량 기반의 Quantization 전략 수립

3. Passive GPU 도입 시 Thermal Throttling 방지를 위한 물리적 냉각 솔루션 필수 확보

4. Proxmox 커널 업데이트 후 dkms 상태 확인을 통한 드라이버-커널 버전 동기화 검증

태그

#GPU Passthrough #VRAM Optimization #Quantization #LLM-Inference #Proxmox

원문 읽기