피드로 돌아가기
Dev.toAI/ML
원문 읽기
KV Cache 저장 용량 98% 절감에도 Latency는 73% 증가한 설계의 함정
A Smaller KV Cache Did Not Make Transformers Faster
AI 요약
Context
Long-context 생성 시 KV Cache 크기 증가로 인한 메모리 압박과 추론 속도 저하 발생. 기존 접근 방식인 Storage Compression 중심의 최적화가 실제 Attention 실행 속도 향상으로 이어지지 않는 병목 지점 분석.
Technical Solution
- Compressed Storage와 Dense Execution의 분리 구조 파악을 통한 분석 방법론 정립
- Quantize-Store-Dequantize-Execute로 이어지는 기존 QuantizedCache의 오버헤드 식별
- Dense Tensor 복원을 생략하고 Compressed Representation 상태에서 Logits를 직접 계산하는 Compressed-Key Attention 경로 설계
- Key 압축을 통한 Attention Weight 계산 효율화 및 Residual Correction을 통한 정확도 유지 구조 채택
- Value Mixing 과정의 구조적 비용을 낮추기 위한 Value-path Approximation 실험 수행
실천 포인트
1. 캐시 최적화 시 저장 공간 감소량이 실제 추론 Latency 감소로 이어지는지 End-to-End 지표 확인
2. Quantization 도입 시 Dequantization으로 인한 Dense Tensor 복원 비용이 연산 이득을 상쇄하는지 분석
3. Attention 최적화 설계 시 Key-path와 Value-path의 병목 지점을 분리하여 각각의 실행 비용을 측정