피드로 돌아가기
Dev.toAI/ML
원문 읽기
MoE 추론 최적화를 위한 다단계 KV 양자화 및 전문가 메모리 병합 기술이 적용된 TurboQuant MoE 0.3.0이 출시되었다
TurboQuant MoE 0.3.0
AI 요약
Context
기존 LLM 추론에서 KV 캐시가 VRAM의 상당 부분을 점유하여 대규모 모델 배포를 제한한다. MoE 구조에서 희소 활성화되는 전문가 가중치가 불필요한 VRAM 낭비를 초래한다.
Technical Solution
- KV 캐시 → 8개의 3-bit 값을 3바이트로 물리적 압축하는 True 3-bit PolarQuant 방식으로 저장 공간을 5.8x-6.0x 절감
- 키밸류 캐시 → 앵커 레이어는 3-bit, 중간 레이어는 1-bit 부호화 델타로 분리 저장하여 14x 압축
- 프리필 단계 → 1-bit 스케치를 활용한 스펙ulative 디코딩으로 2-3x 가속
- MoE 전문가 → SVD 기반 병합으로 사용 빈도가 낮은 전문가의 VRAM을 20-30% 회수
Impact
KV 저장소 압축 14x, VRAM 절감 효과 20-30%, 프리필 속도 2-3x 향상
Key Takeaway
KV 캐시 양자화와 MoE 전문가 병합을 조합하면 추론 효율성을 크게 향상시킬 수 있다
실천 포인트
대규모 MoE 모델을 운영하는 환경에서 KV 캐시에 PolarQuant와 Cross-Layer Delta를 적용하고, 빈도 낮은 전문가를 SVD 병합하면 동일 VRAM으로 더 큰 모델을 서비스할 수 있다