피드로 돌아가기
Tesla P40 in a Homelab: 24GB of Inference on a Budget
Dev.toDev.to
Infrastructure

Tesla P40 24GB VRAM 기반의 저비용 고효율 LLM 추론 환경 구축

Tesla P40 in a Homelab: 24GB of Inference on a Budget

Guatu2026년 5월 25일7intermediate

Context

Proxmox 환경에서 Tesla P40의 24GB VRAM을 활용해 Qwen2.5:32B 등 대규모 모델 추론을 시도함. 일반적인 GPU Passthrough 방식 채택 시 P40의 Function Level Reset(FLR) 부재로 인한 QEMU assertion error 및 시스템 불안정성 발생함.

Technical Solution

  • 가상화 계층의 Translation Layer 제거를 위한 Host-level Inference 구조로 전환함
  • vfio-pci 격리를 해제하고 Proxmox 호스트에 NVIDIA 535 드라이버를 직접 설치하여 하드웨어 제어권 확보함
  • 컨테이너 오버헤드를 최소화하기 위해 Ollama를 systemd 서비스로 배포하여 커널 수준의 직접 접근 경로 설계함
  • VRAM 고갈로 인한 Hallucination 방지를 위해 4-bit Quantization 적용 및 Context Window 제한 전략 수립함
  • Passive Cooling 구조의 Thermal Throttling 방지를 위해 3D-printed shroud 및 고RPM 팬을 통한 강제 냉각 체계 구축함
  • Host-level 실행에 따른 모니터링 공백 해결을 위해 nvidia_gpu_exporter를 단독 바이너리로 실행하여 Prometheus 연동함

1. Tesla P40 등 FLR 미지원 GPU 사용 시 VM Passthrough 대신 Host-level 실행 검토

2. 추론 성능 최적화를 위해 단순 CUDA 코어 수가 아닌 VRAM 가용량 기반의 Quantization 전략 수립

3. Passive GPU 도입 시 Thermal Throttling 방지를 위한 물리적 냉각 솔루션 필수 확보

4. Proxmox 커널 업데이트 후 dkms 상태 확인을 통한 드라이버-커널 버전 동기화 검증

원문 읽기