피드로 돌아가기
What Actually Happens When Claude Says "Compacting Our Conversation"
Dev.toDev.to
AI/ML

Token Budget 최적화를 위한 계층적 Memory 관리 전략

What Actually Happens When Claude Says "Compacting Our Conversation"

Suhas Suresha2026년 4월 13일6intermediate

Context

LLM의 Context Window는 RAM처럼 제한된 자원이며 System Prompt, Tool Definition, RAG 등으로 인해 실제 대화 가능 영역이 협소한 제약 존재. 단순 Truncation 방식은 과거의 핵심 결정 사항을 유실하여 모델의 Amnesia 현상을 유발하는 한계 노출.

Technical Solution

  • Summarization 기반의 History 압축을 통한 핵심 내러티브 보존 및 Token 소비 절감
  • 도메인 특화 Summarization Prompt 설계를 통한 중요 정보(의료 정보, 기술 스택 등)의 선택적 유지
  • MemGPT 개념을 차용한 Model-managed Memory 도입으로 중요 팩트를 Structured Data 형태로 External Storage에 저장
  • RAM(Context Window)과 Disk(External Storage)의 역할을 분리하여 정보 유실 없는 영구 저장 구조 설계
  • Recent Messages, Summarized History, Structured Memory를 결합한 Hierarchical Memory 아키텍처 구축
  • 서비스 도메인 특성에 따른 Tier별 Token Budget 할당 최적화

1. 단순 Truncation 대신 도메인 맞춤형 Summarization 전략 도입 검토

2. 절대 유실되면 안 되는 핵심 정보는 LLM Tool을 통해 Structured Memory로 강제 추출 및 저장

3. 최신 대화-요약본-고정 메모리로 구성된 계층적 Token Budget 할당 비율 설정

4. 대화의 목적(코딩 보조 vs 상담)에 따라 각 메모리 계층의 가중치 차등 적용

원문 읽기