KV Cache 3.5-bit 압축을 통한 VRAM 6배 절감 및 추론 효율화

Google’s TurboQuant Compression May Support Faster Inference, Same Accuracy on Less Capable Hardware

Bruno Couriol2026년 4월 15일4분advanced

AI 요약

Context

LLM의 autoregressive generation 과정에서 KV cache 메모리 사용량이 토큰 길이에 따라 선형적으로 증가하는 구조적 한계 존재. 특히 Long Context 처리 시 KV cache의 VRAM 점유율이 모델 가중치 크기를 상회하며 발생하는 Memory Wall 현상으로 인해 고비용의 multi-GPU 구성이 강제되는 병목 지점 발생.

Technical Solution

Outlier-heavy한 좌표 분포로 인한 기존 linear quantization의 정밀도 저하 문제를 해결하기 위한 TurboQuant 알고리즘 도입
randomized Hadamard transform을 통한 데이터 벡터 회전으로 Euclidean 속성을 유지하며 값을 분산시켜 beta distribution으로 변환
변환된 분포를 통해 저비트 quantization 시 발생하는 왜곡(distortion) 최소화 및 좌표값의 균일성 확보
Quantized Johnson-Lindenstrauss(QJL) transform 적용을 통해 1단계 변환에서 발생한 bias를 제거하고 unbiased estimator 구현
Retraining 없이 16-bit precision의 inner product 및 cosine similarity 연산 정확도를 3.5-bit 수준에서 유지하는 구조 설계

Impact

KV cache 압축률 최대 6배 달성 및 3.5-bit quantization 적용
Llama 70B(1M 토큰) 기준 KV cache VRAM 요구량을 328GB에서 72GB로 감축하여 단일 H100(80GB) 탑재 가능
LongBench 및 Needle in a Haystack 벤치마크에서 16-bit precision과 대등한 추론 정확도 유지
실세계 환경 기준 메모리 사용량 및 처리 속도 약 30-40% 개선

실천 포인트

1. Long Context LLM 서비스 설계 시 가중치보다 KV cache의 VRAM 점유율 우선 분석

2. 단순 quantization 적용 전 데이터 분포의 Outlier 존재 여부 및 분포 왜곡 가능성 검토

3. Memory-bound 상황에서 연산량 감소보다 메모리 대역폭 최적화 및 footprint 감축 전략 수립

태그

#Quantization #Hadamard-Transform #LLM-Inference #KV Cache #Memory Wall

원문 읽기