피드로 돌아가기
InfoQInfoQ
AI/ML

KV Cache 3.5-bit 압축을 통한 VRAM 6배 절감 및 추론 효율화

Google’s TurboQuant Compression May Support Faster Inference, Same Accuracy on Less Capable Hardware

Bruno Couriol2026년 4월 15일4advanced

Context

LLM의 autoregressive generation 과정에서 KV cache 메모리 사용량이 토큰 길이에 따라 선형적으로 증가하는 구조적 한계 존재. 특히 Long Context 처리 시 KV cache의 VRAM 점유율이 모델 가중치 크기를 상회하며 발생하는 Memory Wall 현상으로 인해 고비용의 multi-GPU 구성이 강제되는 병목 지점 발생.

Technical Solution

  • Outlier-heavy한 좌표 분포로 인한 기존 linear quantization의 정밀도 저하 문제를 해결하기 위한 TurboQuant 알고리즘 도입
  • randomized Hadamard transform을 통한 데이터 벡터 회전으로 Euclidean 속성을 유지하며 값을 분산시켜 beta distribution으로 변환
  • 변환된 분포를 통해 저비트 quantization 시 발생하는 왜곡(distortion) 최소화 및 좌표값의 균일성 확보
  • Quantized Johnson-Lindenstrauss(QJL) transform 적용을 통해 1단계 변환에서 발생한 bias를 제거하고 unbiased estimator 구현
  • Retraining 없이 16-bit precision의 inner product 및 cosine similarity 연산 정확도를 3.5-bit 수준에서 유지하는 구조 설계

Impact

  • KV cache 압축률 최대 6배 달성 및 3.5-bit quantization 적용
  • Llama 70B(1M 토큰) 기준 KV cache VRAM 요구량을 328GB에서 72GB로 감축하여 단일 H100(80GB) 탑재 가능
  • LongBench 및 Needle in a Haystack 벤치마크에서 16-bit precision과 대등한 추론 정확도 유지
  • 실세계 환경 기준 메모리 사용량 및 처리 속도 약 30-40% 개선

1. Long Context LLM 서비스 설계 시 가중치보다 KV cache의 VRAM 점유율 우선 분석

2. 단순 quantization 적용 전 데이터 분포의 Outlier 존재 여부 및 분포 왜곡 가능성 검토

3. Memory-bound 상황에서 연산량 감소보다 메모리 대역폭 최적화 및 footprint 감축 전략 수립

원문 읽기