피드로 돌아가기
CacheWeaver Reorders RAG Evidence for Prefix-Cache Reuse: Prefix-Cache-Aware Evidence Reordering
Dev.toDev.to
AI/ML

KV Prefix Cache 재사용 극대화로 TTFT 20~33% 단축한 CacheWeaver

CacheWeaver Reorders RAG Evidence for Prefix-Cache Reuse: Prefix-Cache-Aware Evidence Reordering

pueding2026년 6월 29일8advanced

Context

기존 RAG 시스템은 Retriever의 Relevance 순으로 Evidence를 배치하여 요청마다 프롬프트 시작 부분이 달라지는 구조임. 이로 인해 Serving Engine의 KV Prefix Cache hit rate가 극도로 낮아져 매 요청마다 전체 Evidence에 대한 Prefill 연산이 반복되는 병목 발생.

Technical Solution

  • Evidence 순서를 가변 변수로 취급하여 프롬프트 레이어에서 재배치하는 CacheWeaver 도입
  • 최근 서빙된 Evidence 시퀀스를 관리하는 Prefix Tree 구조를 유지하여 캐시 상태 추적
  • 요청마다 현재 보유한 캐시 중 가장 재사용 가능성이 높은 접두사를 식별하는 Greedy Algorithm 적용
  • 선택된 캐시 접두사와 일치하는 Evidence Chunk를 프롬프트 전면에 배치하고 나머지 Chunk를 후순위로 조정
  • Serving Engine이나 Retriever의 내부 로직 수정 없이 프롬프트 구성 단계에서만 동작하는 Lightweight 설계
  • 정답 품질 저하 없이 KV Cache 재사용률을 Oracle Ordering의 97.5% 수준까지 달성하는 최적화 구현

- RAG 시스템의 TTFT 지연 시간이 긴 경우 KV Prefix Cache hit rate 분석 수행 - 정답 품질에 영향이 없는 범위 내에서 입력 데이터의 순서 최적화 가능성 검토 - Serving Engine(vLLM, SGLang 등)의 Prefix Caching 메커니즘과 연동된 프롬프트 스케줄링 설계 고려

원문 읽기