Sliding Window의 비용 한계를 극복한 Persistent Memory 아키텍처 설계

Why Character.AI Forgets You — and What Persistent Memory Actually Requires

KinthAI2026년 4월 28일7분intermediate

AI 요약

Context

Character.AI는 45M MAU 규모의 비용 최적화를 위해 Sliding Context Window(4-8K tokens) 방식을 채택함. 이 구조는 대화 이력이 토큰 한도를 초과하면 과거 정보가 삭제되는 구조적 망각 현상을 유발하며, 단순 모델 개선으로는 해결 불가능한 아키텍처적 제약 사항임.

Technical Solution

Transcript와 분리된 별도의 Indexed Memory Store를 구축하여 세션 경계를 초월한 정보 유지
Retrieval 단계에서 Semantic Search와 Recency Boost를 적용해 사용자 쿼리에 최적화된 컨텍스트를 동적으로 추출
모델 응답 후 Writeback 프로세스를 통해 핵심 사실과 사용자 선호도를 필터링하고 Structured Profile 및 Vector Index를 업데이트
최신 정보 우선 원칙을 적용한 Conflict Resolution 로직으로 상충하는 데이터 간의 일관성 유지
Multi-tenant 환경에서 유저별 데이터 격리를 보장하는 Isolation 계층 설계

실천 포인트

- LLM 컨텍스트 윈도우의 물리적 한계를 인지하고, 도메인 특성에 맞는 외부 메모리 저장소(Vector DB 등) 도입 검토 - 모든 대화 내용을 저장하는 대신 Writeback 필터를 통해 '저장 가치가 있는 정보'만 선별하는 요약/추출 파이프라인 구축 - Retrieval 단계에서 단순 유사도 검색 외에 시간 가중치(Recency)와 필수 포함 정보(Must-include)를 결합한 하이브리드 전략 적용

태그

#Vector Index #Context Window #Multi-Tenancy #RAG #Semantic Search

원문 읽기