Optane PMem 기반 768GB 메모리 확장을 통한 1T 파라미터 LLM 로컬 구동

Discontinued Optane Local LLM Powers a Kimi K2.5 Desktop Run

Simon Paxton2026년 5월 12일4분advanced

AI 요약

Context

초거대 언어 모델의 파라미터 증가로 인한 GPU VRAM 부족 및 메모리 비용 상승 문제 발생. 기존 소비자용 GPU 환경에서는 1T 규모의 Mixture-of-Experts(MoE) 모델 로드 자체가 불가능한 하드웨어 제약 존재.

Intel Optane PMem을 Memory Mode로 구성하여 DRAM을 캐시로 활용하는 거대 메모리 풀(768GB) 구축
llama.cpp의 --override-tensor 및 --cpu-moe 옵션을 통한 계층별 텐서 배치 전략 적용
Attention weights, Dense layer, Routing components 등 핵심 컴포넌트만 RTX 3060 12GB VRAM에 배치하여 추론 속도 최적화
MoE 구조 특성을 활용하여 Sparse expert weights를 PMem/DRAM 영역에 배치하고 필요한 시점에만 처리하는 온디맨드 로딩 구조 설계
native int4 Quantization 방식을 통해 메모리 점유율을 낮추고 데이터 전송 효율성 확보

실천 포인트

1. MoE 모델 도입 시 전체 파라미터가 아닌 Activated Parameter 기준의 VRAM 요구량 산정

2. VRAM 부족 시 llama.cpp의 --cpu-moe 등 텐서 분리 배치 옵션 검토

3. 대규모 모델 로드를 위해 CXL이나 PMem과 같은 확장 메모리 인터페이스 활용 가능성 분석

4. 모델 정밀도 타협을 통한 Quantization 적용 여부와 추론 속도의 상관관계 평가

태그