KV Prefix Cache 재사용 극대화로 TTFT 20~33% 단축한 CacheWeaver

CacheWeaver Reorders RAG Evidence for Prefix-Cache Reuse: Prefix-Cache-Aware Evidence Reordering

pueding2026년 6월 29일8분advanced

AI 요약

Context

기존 RAG 시스템은 Retriever의 Relevance 순으로 Evidence를 배치하여 요청마다 프롬프트 시작 부분이 달라지는 구조임. 이로 인해 Serving Engine의 KV Prefix Cache hit rate가 극도로 낮아져 매 요청마다 전체 Evidence에 대한 Prefill 연산이 반복되는 병목 발생.

Technical Solution

Evidence 순서를 가변 변수로 취급하여 프롬프트 레이어에서 재배치하는 CacheWeaver 도입
최근 서빙된 Evidence 시퀀스를 관리하는 Prefix Tree 구조를 유지하여 캐시 상태 추적
요청마다 현재 보유한 캐시 중 가장 재사용 가능성이 높은 접두사를 식별하는 Greedy Algorithm 적용
선택된 캐시 접두사와 일치하는 Evidence Chunk를 프롬프트 전면에 배치하고 나머지 Chunk를 후순위로 조정
Serving Engine이나 Retriever의 내부 로직 수정 없이 프롬프트 구성 단계에서만 동작하는 Lightweight 설계
정답 품질 저하 없이 KV Cache 재사용률을 Oracle Ordering의 97.5% 수준까지 달성하는 최적화 구현

실천 포인트

- RAG 시스템의 TTFT 지연 시간이 긴 경우 KV Prefix Cache hit rate 분석 수행 - 정답 품질에 영향이 없는 범위 내에서 입력 데이터의 순서 최적화 가능성 검토 - Serving Engine(vLLM, SGLang 등)의 Prefix Caching 메커니즘과 연동된 프롬프트 스케줄링 설계 고려

태그

#RadixAttention #KV Prefix Cache #RAG #TTFT #Prefill

원문 읽기