피드로 돌아가기
Dev.toAI/ML
원문 읽기
GTX 1080에서 Gemma 4 26B MoE 모델 24.5 tok/s 달성
Running Gemma 4 26B on an Old GTX 1080 with llama.cpp
AI 요약
Context
8 GiB VRAM의 구형 GPU 환경에서 26B 파라미터 모델 구동 시 발생하는 메모리 부족 및 PCIe 대역폭 병목 현상 분석. 특히 MoE 구조의 특성과 하드웨어 제약으로 인해 전체 가중치를 GPU에 적재하는 것이 불가능한 상황임.
Technical Solution
- MoE 특성을 활용하여 Active Parameters(3.8B)만 GPU에 유지하고 Cold Experts 가중치를 System RAM에 배치하여 PCIe 스트리밍 구조 설계
--n-cpu-moe 21설정을 통한 VRAM 압박 해소와 PCIe 대역폭 간 최적 균형점 확보- RotorQuant 및 TurboQuant KV-cache 도입을 통해 16k 수준의 Context Window를 128k까지 8배 확장
- MTP Speculative Decoding 적용 및
token_embd.weight를 CUDA0에 강제 할당하여 CPU 메모리 접근으로 인한 PCIe 트래픽 150 MiB/token 제거 - glibc 2.41 호환성을 위해 CUDA 12.9
math_functions.h내 rsqrt 등의 인라인 정의를noexcept(true)및throw()로 패치하여 빌드 안정성 확보
Impact
- 추론 속도: 약 24.5 tokens/second 달성
- Context Window: 최대 128k tokens 지원
- Speculative Decoding: 약 79%의 Draft Acceptance Rate 기록
실천 포인트
- MoE 모델 구동 시 `n-cpu-moe` 파라미터를 조절하여 VRAM과 PCIe 대역폭 간 병목 지점을 튜닝할 것 - Speculative Decoding 적용 시 Assistant 모델의 Embedding Table 위치를 확인하여 불필요한 PCIe 전송 발생 여부를 점검할 것 - 고용량 Context가 필요한 경우 KV-cache 양자화 기법(RotorQuant 등) 도입을 검토할 것