피드로 돌아가기
MEMORY.md Every Turn? That’s Noise, Not Memory.
Dev.toDev.to
AI/ML

Full Context 대비 Token 18% 절감 및 추론 효율 최적화

MEMORY.md Every Turn? That’s Noise, Not Memory.

Charles Wu2026년 4월 27일6intermediate

Context

LLM의 Stateless 특성 해결을 위해 전체 대화 이력을 Prompt에 주입하는 Full Context 방식 채택. 하지만 컨텍스트 확장 시 Inference 속도 저하, 비용 선형 증가 및 Attention 분산으로 인한 품질 저하라는 병목 지점 발생.

Technical Solution

  • 지속성 메모리 레이어(PowerMem)를 LLM 외부에 배치하여 데이터 관리 분리
  • 대화 내용 중 핵심 사실만 추출 및 중복 제거하는 Write Path 설계
  • Vector, Full-text, Graph-style 링크를 결합한 Hybrid Retrieval 기반의 Read Path 구현
  • 정보의 유효 기간을 설정하여 불필요한 데이터를 삭제하는 Ebbinghaus-style Decay 정책 적용
  • 세션 시작 전 Relevant 정보만 Retrieve 하여 Inject 하고 세션 종료 후 Durable Fact를 Extract 하는 파이프라인 구축
  • Multi-agent 환경 대응을 위한 Private 및 Shared Memory 구조 설계

1. 단순 MEMORY.md 방식의 Token 소모량 및 응답 정확도 측정

2. Embedding 기반 검색의 한계 보완을 위한 Hybrid Retrieval 도입 검토

3. 데이터 오염 방지를 위한 명시적인 메모리 Decay 정책 수립

4. Operation Plane(CLI/Dashboard) 구축을 통한 메모리 가시성 확보

원문 읽기