Prompt Caching 위치 최적화로 입력 비용의 90% 절감

Memory Daemon for OpenClaw: Getting Prompt Caching Right

Thiago V.2026년 4월 24일9분intermediate

AI 요약

Context

AgentCore Runtime의 컨테이너 동결 특성으로 인해 휘발되는 메모리를 유지하기 위해 S3 기반의 외부 저장소와 agent-memory-daemon을 도입한 구조임. 초기 설계에서 Long-term Memory를 User Message에 포함시켜 Bedrock Prompt Caching의 Prefix 매칭 실패로 인한 비용 낭비가 발생함.

Technical Solution

agent-memory-daemon을 통한 세션 트랜스크립트 내 핵심 정보 추출 및 Markdown 기반 파일 저장 구조 설계
주기적인 Consolidation 프로세스를 통해 중복 제거 및 크기 제한(18KB)을 적용한 MEMORY.md 인덱스 유지
S3-Container 간 동기화 레이어를 통한 Serverless 환경에서의 상태 유지(Stateful) 메커니즘 구현
Bedrock Prompt Caching의 'Stable Prefix' 규칙에 따라 가변적인 User Message 이전 단계인 System Message로 메모리 주입 위치 변경
LLM 백엔드를 추상화하여 Bedrock 외 OpenAI 등 타 Chat API로 확장 가능한 Pluggable 구조 채택

실천 포인트

- Prompt Caching 적용 시 가장 변동성이 큰 데이터가 요청의 최하단에 위치하는지 확인 - 서버리스 컨테이너 환경에서 상태 유지가 필요할 경우 S3와 같은 외부 저장소와 동기화 데몬의 조합 검토 - LLM 컨텍스트 비용 최적화를 위해 고정된 크기의 요약 인덱스(Size-budgeted index) 관리 전략 도입

태그

#Long-term Memory #Prompt Caching #Token Optimization #Serverless architecture #Amazon Bedrock

원문 읽기