피드로 돌아가기
Dev.toInfrastructure
원문 읽기
GPU Passthrough 유발 Boot Loop를 systemd Masking으로 해결한 사례
I Broke My Proxmox Home Lab with a GPU Passthrough - Here's How I Fixed It
AI 요약
Context
Proxmox 기반 Home Lab 환경에서 k3s Worker Node의 GPU 가속을 위해 PCIe Passthrough를 설정함. VM의 자동 시작 설정과 GPU 점유 과정이 맞물려 Host Kernel Panic이 발생하는 Infinite Crash Loop 상황에 직면함.
Technical Solution
- GRUB 단계에서 IOMMU 파라미터를 제거하여 하드웨어 수준의 Passthrough 활성화 차단
systemd.mask=pve-guests.service커널 파라미터 주입을 통한 VM 자동 시작 서비스 일시 중지- Host OS 부팅 후 VM 관리 서비스의 간섭을 배제하여 Web UI 및 SSH 접근 권한 확보
- 문제가 된 VM의 'Start at boot' 옵션 비활성화 및 Machine Type을 q35에서 i440fx로 롤백하여 설정 안정화
- /dev/dri/by-path/ 경로 확인을 통한 GPU Device Enumeration 불일치 문제 해결
실천 포인트
1. GPU Passthrough 설정 전 'Start at boot' 옵션을 반드시 비활성화할 것
2. i440fx에서 안정성을 먼저 검증한 후 q35로 마이그레이션하는 단계적 접근 적용
3. 원격 접속 불가 상황을 대비해 물리적 콘솔 접근(Keyboard/Monitor) 환경 유지
4. 장애 복구를 위한 systemd 서비스 마스킹 커널 파라미터 활용 방안 숙지