3-Tier 캐싱 구조 도입으로 RAG 응답 지연 시간 최대 99% 단축

I Tested 28 Query Pairs to See if Semantic Caches Actually Lie to Users. The Result Surprised Me

Kristian Ivanov2026년 5월 1일14분intermediate

AI 요약

Context

전통적인 RAG 파이프라인은 LLM 호출을 원자적 단위로 처리하여 중복 쿼리에 대한 비용과 지연 시간이 가중되는 구조임. 단순 Redis 기반의 Exact-match 캐싱은 사용자별 다양한 표현 방식(Paraphrase)을 처리하지 못해 캐시 효율이 저하되는 한계가 존재함.

Technical Solution

트래픽의 반복 패턴을 Machine-driven과 Human-driven으로 구분한 3-Tier 캐싱 아키텍처 설계
Tier 1에서 정규화된 쿼리 스트링 기반의 Exact-match KV 캐시를 적용하여 단순 반복 쿼리를 sub-millisecond 단위로 처리
Tier 2에서 text-embedding-3-small 모델 기반의 Semantic Cache를 구축하여 유사 의미 쿼리를 Cosine Similarity 임계값 기준으로 필터링
Tier 3에서 최종 RAG 파이프라인을 실행하여 생성된 결과를 상위 두 계층의 캐시에 역으로 저장하는 Write-through 전략 채택
Entity Swap(엔티티 교체) 쿼리의 유사도가 최대 0.74로 측정됨을 확인하여, 임계값 설정을 통한 Cache Poisoning 방지 가능성 검증
임계값 경계 영역(Borderline Band)의 정확도 향상을 위해 LLM-as-judge 도입을 통한 정밀 판별 구조 제안

실천 포인트

- [ ] 쿼리 패턴을 분석하여 Exact-match와 Semantic-match 계층을 분리했는가 - [ ] 사용하는 Embedding 모델의 Entity Disambiguation 능력을 실제 쿼리 쌍으로 측정했는가 - [ ] Similarity Threshold를 설정할 때 Paraphrase와 Entity Swap의 경계 지표를 반영했는가 - [ ] 캐시 히트/미스 및 유사도 점수를 실시간으로 모니터링할 수 있는 Observability를 구축했는가

태그

#Latency Optimization #Semantic Caching #Cosine Similarity #RAG #LLM-as-judge

원문 읽기