피드로 돌아가기
Dev.toAI/ML
원문 읽기
Prompt Caching 위치 최적화로 입력 비용의 90% 절감
Memory Daemon for OpenClaw: Getting Prompt Caching Right
AI 요약
Context
AgentCore Runtime의 컨테이너 동결 특성으로 인해 휘발되는 메모리를 유지하기 위해 S3 기반의 외부 저장소와 agent-memory-daemon을 도입한 구조임. 초기 설계에서 Long-term Memory를 User Message에 포함시켜 Bedrock Prompt Caching의 Prefix 매칭 실패로 인한 비용 낭비가 발생함.
Technical Solution
- agent-memory-daemon을 통한 세션 트랜스크립트 내 핵심 정보 추출 및 Markdown 기반 파일 저장 구조 설계
- 주기적인 Consolidation 프로세스를 통해 중복 제거 및 크기 제한(18KB)을 적용한 MEMORY.md 인덱스 유지
- S3-Container 간 동기화 레이어를 통한 Serverless 환경에서의 상태 유지(Stateful) 메커니즘 구현
- Bedrock Prompt Caching의 'Stable Prefix' 규칙에 따라 가변적인 User Message 이전 단계인 System Message로 메모리 주입 위치 변경
- LLM 백엔드를 추상화하여 Bedrock 외 OpenAI 등 타 Chat API로 확장 가능한 Pluggable 구조 채택
실천 포인트
- Prompt Caching 적용 시 가장 변동성이 큰 데이터가 요청의 최하단에 위치하는지 확인 - 서버리스 컨테이너 환경에서 상태 유지가 필요할 경우 S3와 같은 외부 저장소와 동기화 데몬의 조합 검토 - LLM 컨텍스트 비용 최적화를 위해 고정된 크기의 요약 인덱스(Size-budgeted index) 관리 전략 도입