피드로 돌아가기
42/60 Days System Design Questions
Dev.toDev.to
AI/ML

Context Window 한계 극복을 위한 Task-oriented Memory 아키텍처 설계

42/60 Days System Design Questions

Joud Awad2026년 6월 17일1intermediate

Context

8K Tokens 수준의 raw conversation history 누적으로 인한 LLM의 문맥 망각 현상 발생. In-context window 방식의 토큰 제한과 Vector memory의 Semantic similarity 기반 오추출로 인한 태스크 수행 능력 저하 분석.

Technical Solution

  • Context Window의 15 Turns 제한 극복을 위한 Memory 계층 구조 설계
  • Semantic Similarity 기반 Vector Search의 낮은 정밀도를 보완하는 Episodic memory 도입
  • 과거 대화 내용을 구조화된 이벤트 요약본으로 압축하여 주입하는 Summarization 로직 적용
  • Task-oriented Agent의 특성에 맞춘 상태 관리 최적화로 문맥 혼선 방지
  • Deterministic한 상태 관리를 위한 Redis session state 활용 가능성 검토

- 대화 턴수가 15회 이상 증가하는 시점의 Token 사용량 및 문맥 유지력 측정 - 단순 Semantic Search 대신 태스크 중심의 Episodic Summarization 적용 여부 검토 - Agent가 명시적으로 읽고 써야 할 상태 데이터와 자동 요약 데이터의 분리 설계

원문 읽기