피드로 돌아가기
Dev.toAI/ML
원문 읽기
Context Window 한계 극복을 위한 LLM Memory 전략 설계
99. Build a Chatbot With Memory
AI 요약
Context
LLM API의 Stateless 특성으로 인해 이전 대화 맥락 유지 불가 문제 발생. 모든 대화 이력을 Prompt에 포함하는 방식으로 Memory를 구현하나, 모델별 Context Window 제한으로 인해 토큰 초과 시 시스템 붕괴 위험 존재.
Technical Solution
- Conversation History Pattern 적용을 통한 Pseudo-Memory 구현
- Sliding Window Memory 설계를 통한 최신 N개 메시지만 유지하여 고정된 토큰 비용 관리
- Summary Memory 도입으로 과거 대화 내용을 압축하여 Context Window 효율성 극대화
- Entity Memory 구조 설계를 통한 사용자 특정 사실(Fact)의 독립적 추출 및 저장
- Persistent Memory 레이어 구축을 통한 세션 간 대화 데이터 지속성 확보
- LangChain의 Buffer 및 Summary Memory 추상화 계층 활용을 통한 구현 복잡도 감소
실천 포인트
- 대화 규모에 따른 메모리 전략 선택 (단기: Buffer, 중기: Sliding Window, 장기: Summary/Entity) - 토큰 계산 로직(1 token ≈ 4 chars)을 통한 Context Window 임계치 모니터링 적용 - 세션 지속성을 위한 Disk/DB 기반의 History Persistence 레이어 검토 - RAG 컨텍스트 추가 시 가용 토큰 공간 확보를 위한 사전 요약 로직 설계