GTX 1080에서 Gemma 4 26B MoE 모델 24.5 tok/s 달성

Running Gemma 4 26B on an Old GTX 1080 with llama.cpp

Martin Andrews2026년 5월 24일14분advanced

AI 요약

Context

8 GiB VRAM의 구형 GPU 환경에서 26B 파라미터 모델 구동 시 발생하는 메모리 부족 및 PCIe 대역폭 병목 현상 분석. 특히 MoE 구조의 특성과 하드웨어 제약으로 인해 전체 가중치를 GPU에 적재하는 것이 불가능한 상황임.

Technical Solution

MoE 특성을 활용하여 Active Parameters(3.8B)만 GPU에 유지하고 Cold Experts 가중치를 System RAM에 배치하여 PCIe 스트리밍 구조 설계
--n-cpu-moe 21 설정을 통한 VRAM 압박 해소와 PCIe 대역폭 간 최적 균형점 확보
RotorQuant 및 TurboQuant KV-cache 도입을 통해 16k 수준의 Context Window를 128k까지 8배 확장
MTP Speculative Decoding 적용 및 token_embd.weight를 CUDA0에 강제 할당하여 CPU 메모리 접근으로 인한 PCIe 트래픽 150 MiB/token 제거
glibc 2.41 호환성을 위해 CUDA 12.9 math_functions.h 내 rsqrt 등의 인라인 정의를 noexcept(true) 및 throw()로 패치하여 빌드 안정성 확보

Impact

추론 속도: 약 24.5 tokens/second 달성
Context Window: 최대 128k tokens 지원
Speculative Decoding: 약 79%의 Draft Acceptance Rate 기록

실천 포인트

- MoE 모델 구동 시 `n-cpu-moe` 파라미터를 조절하여 VRAM과 PCIe 대역폭 간 병목 지점을 튜닝할 것 - Speculative Decoding 적용 시 Assistant 모델의 Embedding Table 위치를 확인하여 불필요한 PCIe 전송 발생 여부를 점검할 것 - 고용량 Context가 필요한 경우 KV-cache 양자화 기법(RotorQuant 등) 도입을 검토할 것

태그

#PCIe Bandwidth #KV Cache Quantization #llama.cpp #Mixture of Experts #Speculative Decoding

원문 읽기