피드로 돌아가기
Hacker NewsHacker News
AI/ML

FP16 수준 정밀도 유지 및 KV-cache 용량 3~5배 확장 달성

KVarN: Native vLLM KV-cache quantization back end by Huawei

2026년 6월 4일4advanced

Context

LLM의 Long-context 처리 시 KV-cache 용량 부족으로 인한 메모리 병목 현상 발생. 기존 Quantization 방식은 용량 확장을 위해 Throughput 감소나 모델 정밀도 저하를 감수해야 하는 Trade-off 존재.

Technical Solution

  • Hadamard Rotation 적용을 통한 Channel Dimension의 Outlier 분산 및 양자화 효율 증대
  • Sinkhorn-like 반복 분산 정규화를 통한 Tile 내 Variance 평준화 및 양자화 오차 최소화
  • Key 4-bit, Value 2-bit 할당 방식의 비대칭 양자화 설계를 통한 최적의 정밀도-용량 균형 달성
  • Triton 기반 JIT 컴파일 커널을 vLLM Backend에 Native하게 통합하여 추가적인 모델 수정 제거
  • Read-time Scale Fold-back 메커니즘을 통한 정밀도 손실 방지 및 추론 속도 최적화

- vLLM 환경에서 Long-context 워크로드 처리 시 `kvarn_k4v2_g128` dtype 검토 - 단일 GPU 환경에서 메모리 풀 확보를 위해 `VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=0` 설정 적용 - Key와 Value의 중요도 차이에 따른 비대칭 Bit-width 할당 전략 고려

원문 읽기