LLM-Fallback 기반 계층적 결정 구조를 통한 클라이언트 캐싱 최적화

LLM-Driven Client-Side Caching: A Hybrid Decision Architecture

Damir Karimov2026년 5월 4일4분advanced

AI 요약

Context

단순 TTL 및 SWR 방식의 정적 캐싱 전략은 데이터별 휘발성 차이와 사용자 컨텍스트의 불확실성을 처리하지 못해 UI stale 현상이나 불필요한 네트워크 트래픽을 유발함. 기존의 Heuristic 및 경량 ML 모델은 피처 설계의 수동성 및 모델 드리프트 문제로 인해 복잡한 UI 상태 변화에 대응하는 데 한계가 존재함.

Technical Solution

캐싱을 단순 저장소 최적화가 아닌 불확실성 하의 '결정 시스템(Decision System)'으로 재정의하여 HIT, REVALIDATE, BYPASS, SWR의 액션 도출 구조 설계
Rule Layer(결정론적) → ML Scoring Layer(확률론적) → LLM Fallback Layer(불확실성 처리)로 이어지는 계층적 의사결정 파이프라인 구축
LLM의 역할 범위를 raw prompt가 아닌 구조화된 피처 기반의 Classifier로 제한하여 결정 일관성 확보 및 토큰 비용 최적화
Decision Cache(contextHash 기반)를 도입하여 동일 컨텍스트에 대한 LLM 중복 호출을 방지하고 추론 비용 및 레이턴시 상쇄
ML 모델의 Confidence Score를 기반으로 LLM 호출 여부를 결정하는 엄격한 Gating 메커니즘 적용

실천 포인트

- 캐싱 전략 수립 시 데이터 타입별 휘발성(Volatility)을 정의하고 정적 TTL 대신 컨텍스트 기반 결정 로직 검토 - ML 모델 도입 시 Confidence Score 산출 로직을 포함하여 신뢰도 미달 시의 fallback 경로 설계 - LLM 연동 시 추론 결과의 결정론적 성격을 보장하기 위해 입력값의 구조화(Structured Feature) 및 출력 형식 제한 적용 - 고비용 추론 레이어 전면에 Decision Cache 계층을 두어 동일 패턴 요청에 대한 레이턴시 최소화

태그

#Decision System #LLM Fallback #Client-Side Caching #Hybrid Architecture #SWR

원문 읽기