피드로 돌아가기
Dev.toAI/ML
원문 읽기
MTP와 최적화 스택으로 Qwen3.6-27B 추론 속도 2.25배 향상
Doubling Qwen3.6-27B on One RTX 3090: ollama llama.cpp + MTP, Lever by Lever (35.7 80.2 tok/s)
AI 요약
Context
편의성 중심의 Ollama 백엔드 사용으로 인한 하드웨어 자원 활용 미흡 및 추론 처리량(Throughput)의 한계 발생. RTX 3090 단일 GPU 환경에서 Qwen3.6-27B 모델의 생성 속도를 극대화하기 위한 최적화 경로 탐색 필요.
Technical Solution
- 편의 기능 기반의 Ollama를 제거하고 CUDA 및 sm86 아키텍처에 최적화된 ik_llama.cpp 빌드로 엔진 교체하여 기본 오버헤드 감소
- Q4_K_M에서 IQ4_XS로 Quantization 레벨을 낮추어 VRAM 사용량을 줄이고 메모리 대역폭 효율 개선
- Multi-Token Prediction(MTP) 기반 Speculative Decoding을 도입하여 소형 Draft 모델이 예측한 토큰을 메인 모델이 한 번에 검증하는 구조 설계
- --spec-draft-n-max 값을 3으로 설정하여 Draft 수락률(70.3%)과 생성 속도 사이의 최적 Balance 지점 확보
- f16 KV 캐시를 유지하여 q8_0 대비 높은 추론 정확도와 처리량 유지
Impact
- 전체 처리량: 35.7 tok/s (Ollama) → 80.2 tok/s (llama.cpp + MTP)로 2.25배 성능 향상
- MTP 단독 효과: 동일 Quant 환경에서 45.1 tok/s → 80.2 tok/s로 약 1.78배 속도 증가
- VRAM 효율: 23.2 GB에서 15 GB 수준으로 감소하여 메모리 여유 공간 확보
실천 포인트
- 추론 속도 최적화 시 단순 엔진 교체보다 Speculative Decoding(MTP) 도입이 가장 큰 성능 레버리지임을 인지할 것 - Draft Token의 최대 생성 수(n-max) 증가가 반드시 성능 향상으로 이어지지 않으므로, 수락률(Acceptance Rate) 기반의 튜닝 필요 - 모델 업데이트로 인한 Rope Dimension 변경 등 GGUF 포맷 호환성 이슈를 사전에 검증할 것