기존 KV 압축 기법 대비 최대 25% 추가 절감, 성능은 오히려 개선 — CASK

Role-based KV Cache 구조 설계를 통한 메모리 25% 추가 절감 및 추론 성능 향상

skyline232026년 4월 15일2분advanced

AI 요약

Context

LLM의 긴 Chain-of-thought 추론 시 KV Cache 급증으로 인한 메모리 점유율 상승 및 Latency 증가 발생. Token Importance Scoring 기반의 기존 Pruning 방식은 유지 토큰 집합의 변화 폭이 작아 효율 개선에 한계 노출.

Technical Solution

중요도 기반 Eviction에서 Role-based 구조적 분리 방식으로 설계 패러다임 전환
핵심 상태를 유지하여 출력 생성에 기여하는 Core 영역 설정
중간 계산 및 중복 정보를 포함하는 Scratch 영역의 선택적 Compression 적용
Prefix Phase의 일부 KV Eviction을 통한 초기 메모리 최적화
Decode Phase 내 Scratch 영역 중심의 Compression 로직으로 추론 효율 극대화
단순 삭제가 아닌 Preserve 및 Reuse 전략을 통한 Reasoning 정보 재사용성 강화

Impact

기존 KV 압축 기법 대비 최대 25% 추가 메모리 절감 달성
CASK(KV 384) 설정이 기존 방식(KV 512)보다 더 높은 성능을 기록하는 효율성 증명
동일 KV Cache Budget 내에서 더 높은 추론 정확도 유지

Key Takeaway

데이터 최적화 시 '무엇을 버릴 것인가'라는 소거법적 접근보다 '무엇을 유지해야 하는가'라는 구조적 정의가 더 높은 성능 이득을 제공함.

실천 포인트

- KV Cache 최적화 시 Token-level Pruning의 한계를 검토하고 Role-based 분리 가능성 확인 - 추론 과정의 상태를 Core와 Scratch로 구분하여 차등적인 압축 전략 적용 - 메모리 Budget 감소가 성능 저하로 이어지지 않는 최적의 KV Cache 임계점 측정

태그

#Memory-Optimization #Pruning #LLM-Inference #KV Cache #Compression

원문 읽기