KV Cache 저장 용량 98% 절감에도 Latency는 73% 증가한 설계의 함정

A Smaller KV Cache Did Not Make Transformers Faster

Alankrit Verma2026년 4월 26일6분advanced

AI 요약

Context

Long-context 생성 시 KV Cache 크기 증가로 인한 메모리 압박과 추론 속도 저하 발생. 기존 접근 방식인 Storage Compression 중심의 최적화가 실제 Attention 실행 속도 향상으로 이어지지 않는 병목 지점 분석.

Compressed Storage와 Dense Execution의 분리 구조 파악을 통한 분석 방법론 정립
Quantize-Store-Dequantize-Execute로 이어지는 기존 QuantizedCache의 오버헤드 식별
Dense Tensor 복원을 생략하고 Compressed Representation 상태에서 Logits를 직접 계산하는 Compressed-Key Attention 경로 설계
Key 압축을 통한 Attention Weight 계산 효율화 및 Residual Correction을 통한 정확도 유지 구조 채택
Value Mixing 과정의 구조적 비용을 낮추기 위한 Value-path Approximation 실험 수행

실천 포인트

1. 캐시 최적화 시 저장 공간 감소량이 실제 추론 Latency 감소로 이어지는지 End-to-End 지표 확인

2. Quantization 도입 시 Dequantization으로 인한 Dense Tensor 복원 비용이 연산 이득을 상쇄하는지 분석

3. Attention 최적화 설계 시 Key-path와 Value-path의 병목 지점을 분리하여 각각의 실행 비용을 측정

태그