Full Context 대비 Token 18% 절감 및 추론 효율 최적화

MEMORY.md Every Turn? That’s Noise, Not Memory.

Charles Wu2026년 4월 27일6분intermediate

AI 요약

Context

LLM의 Stateless 특성 해결을 위해 전체 대화 이력을 Prompt에 주입하는 Full Context 방식 채택. 하지만 컨텍스트 확장 시 Inference 속도 저하, 비용 선형 증가 및 Attention 분산으로 인한 품질 저하라는 병목 지점 발생.

지속성 메모리 레이어(PowerMem)를 LLM 외부에 배치하여 데이터 관리 분리
대화 내용 중 핵심 사실만 추출 및 중복 제거하는 Write Path 설계
Vector, Full-text, Graph-style 링크를 결합한 Hybrid Retrieval 기반의 Read Path 구현
정보의 유효 기간을 설정하여 불필요한 데이터를 삭제하는 Ebbinghaus-style Decay 정책 적용
세션 시작 전 Relevant 정보만 Retrieve 하여 Inject 하고 세션 종료 후 Durable Fact를 Extract 하는 파이프라인 구축
Multi-agent 환경 대응을 위한 Private 및 Shared Memory 구조 설계

실천 포인트

1. 단순 MEMORY.md 방식의 Token 소모량 및 응답 정확도 측정

2. Embedding 기반 검색의 한계 보완을 위한 Hybrid Retrieval 도입 검토

3. 데이터 오염 방지를 위한 명시적인 메모리 Decay 정책 수립

4. Operation Plane(CLI/Dashboard) 구축을 통한 메모리 가시성 확보

태그