피드로 돌아가기
Dev.toAI/ML
원문 읽기
KV-Cache 가속을 위한 int4 양자화 및 Work Reduction의 한계와 Quality Gate 검증
The Last Pivot: Why Quality Gates Killed My Final KV-Cache Speedup
AI 요약
Context
LLM 추론 시 KV-Cache 메모리 대역폭 병목 해결을 위해 TurboQuant 및 Packed-codebook 기반의 압축 기법을 탐색함. 단순한 메모리 절감을 넘어 실제 Decode Latency 감소를 목표로 했으나, 하드웨어 친화적 구현과 모델 품질 유지 사이의 Trade-off 발생함.
Technical Solution
- Blockwise int4 K/V 양자화를 통한 Hardware-friendly 데이터 레이아웃 설계로 Unpack/Dequant 경로 단순화 시도
- Symmetric 및 Affine int4 포맷을 적용하여 block_size=32 단위의 메모리 배치 최적화 추진
- Dense Attention의 연산량을 줄이기 위한 Historical Token Subset 선택 기반의 Work Reduction 가설 검증
- Speed Ceiling 수식을 통해 Attention 점유율(p_attn)에 따른 이론적 최대 가속도를 산출하여 구현 타당성 사전 평가
- Oracle Quality Gate를 설정하여 Real-KV Logit MSE 및 Decode Step 안정성을 검증하는 엄격한 필터링 프로세스 구축
실천 포인트
1. 이론적 가속도(Speed Ceiling) 산출 후 구현 여부 결정
2. 합성 데이터(Synthetic Tensor)가 아닌 실제 모델 데이터(Real-KV)로 품질 검증
3. Byte 압축률과 추론 품질(Logit MSE)을 분리하여 평가
4. 전체 Decode Pipeline에서 해당 모듈의 시간 점유율을 확인하여 최적화 우선순위 설정