피드로 돌아가기
Building a Production Homelab: Multi-Node Proxmox Cluster with Kubernetes
Dev.toDev.to
Infrastructure

개발자가 AMD Ryzen 기반 미니PC 클러스터에 Proxmox + Kubernetes + Longhorn을 구축해 클라우드 월정액 없이 GPU 추론·자동 백업·다중 서비스 실행

Building a Production Homelab: Multi-Node Proxmox Cluster with Kubernetes

Guatu2026년 3월 28일10advanced

Context

클라우드 플랫폼은 네트워킹, 스토리지, 스케줄링, 장애 모드 같은 인프라 세부사항을 추상화하므로, 이들을 직접 이해하고 관리할 수 없었다. 또한 동등한 클라우드 리소스 비용 대비 소유 인프라의 필요성이 있었다.

Technical Solution

  • Proxmox VE 8.x 기반 다중 노드 클러스터 구축: corosync 기반 쿼럼 형성으로 동시 다중 노드 장애 시에도 클러스터 조율 유지
  • Kubernetes를 Proxmox VM 위에 배포: kubeadm + containerd 사전 설치 템플릿에서 워커 클론 생성, 라이브 마이그레이션과 스냅샷 활용
  • Longhorn 분산 블록 스토리지 도입: 복제 RWO(노드 장애 대응), 단일 복제 RWO(모델 재다운로드 대비), ReadWriteMany NFS 백엔드로 접근 패턴별 스토리지 클래스 분리
  • Traefik 인그레스 + MetalLB LoadBalancer + cert-manager로 자동 TLS 구성: Cloudflare DNS-01 챌린지 기반 와일드카드 인증서 자동 갱신
  • AMD C-state 프리징 버그 해결: GRUB 설정에서 processor.max_cstate=1로 커널 제한, BIOS에서 깊은 C-state 비활성화, 하드웨어 워치독 배포로 자동 재부팅
  • AMD APU iGPU 메모리 예약 최적화: BIOS에서 UMA Frame Buffer를 최소값으로 설정해 클러스터 전체 15GB 이상 회수
  • DDR4 속도 최적화: DOCP 활성화로 2133 MT/s에서 3200 MT/s로 상향
  • Longhorn 스냅샷 체인 관리: 스냅샷 20개 한계 전에 보유 개수를 낮게 유지, 정리 작업으로 복제 재구축 정지 방지

Impact

클라우드 동등 리소스 비용 대비 하드웨어 완전 소유로 월정액 제거, 1회 구매로 지속 사용. AMD APU iGPU 예약 비활성화로 15GB 이상 RAM 회수. DDR4 속도 최적화로 기본값 대비 1.5배(2133→3200 MT/s) 성능 향상. 새로운 서비스 배포 시 유효한 HTTPS 인증서로 1분 이내 접근 가능.

Key Takeaway

소비자 하드웨어를 항상 켜진 환경에서 장시간 운영하면 데스크톱 사용자가 마주하지 않는 펌웨어 버그가 표면화되므로, NVMe SMART 데이터(특히 안전하지 않은 종료 카운터)를 지속적으로 모니터링하고 하드웨어 다양성보다 동일성을 우선하며 모든 버전을 명시적으로 고정하는 것이 신뢰성의 핵심이다.


동일 모델 하드웨어 기반 다중 노드 홈랩을 구축할 때, BIOS 설정(iGPU 메모리 예약, C-state, DOCP)을 초기 구성 단계에서 dmidecode와 SMART 모니터링으로 검증하고, Proxmox VM 기반 Kubernetes 배포로 라이브 마이그레이션 유연성을 확보하며, Longhorn 스냅샷 보유 수를 20개 이하로 제한해 자동 복제 재구축 정지를 방지할 수 있다.

원문 읽기