피드로 돌아가기
GeekNewsAI/ML
원문 읽기
£200로 데이터센터 GPU를 게이밍 PC에 넣기
£200 투자로 VRAM 32GB 확보 및 LLM 32 tok/s 추론 달성
AI 요약
Context
RTX 4080 16GB VRAM의 물리적 한계로 인해 대규모 파라미터 모델 및 긴 Context Window 확보 불가. 고가의 최신 GPU(RTX 5090) 도입 대신 저렴한 중고 데이터센터 GPU를 통한 VRAM 확장 전략 수립.
Technical Solution
- SXM2-to-PCIe 어댑터를 통한 서버 전용 V100 SXM2 GPU의 소비자용 메인보드 물리적 장착
- llama.cpp의 Tensor Splitting 기술을 활용해 RTX 4080과 V100에 모델 레이어를 분산 배치하는 파이프라인 구조 설계
- HBM2의 고대역폭(900GB/s)을 활용해 추론 속도 병목인 메모리 대역폭 문제 해결
- PWM 제어 불능인 서버 팬을 PH2.0-2.54mm 점퍼 케이블로 메인보드 팬 헤더에 연결하여 저소음 및 온도 최적화
- NixOS 기반의 Legacy Driver(550.x) 및 CUDA 12.2 런타임 고정을 통해 Volta와 Ada 아키텍처의 동시 호환성 확보
- Multi-Token Prediction(MTP) 적용으로 예측 가능한 토큰 시퀀스에 대한 생성 속도 1.5~2배 가속
실천 포인트
- 중고 데이터센터 GPU 도입 시 PCIe 어댑터 호환성 및 ACPI Enumeration으로 인한 Warm Reboot 인식 오류 검토 - 서버용 냉각 솔루션의 소음 문제를 메인보드 PWM 헤더 직접 연결로 해결 가능한지 핀 배열 확인 - 멀티 아키텍처 GPU 구성 시 최신 드라이버의 지원 중단 여부를 확인하고 특정 CUDA 버전 및 커널 버전을 고정하는 환경 구축(NixOS 등 활용)