피드로 돌아가기
Dev.toAI/ML
원문 읽기
Vector DB 배제 및 System Prompt 내 상주 메모리로 지연 시간 제로 구현
Hermes Agent Memory System: How Persistent AI Memory Actually Works
AI 요약
Context
LLM의 Stateless 특성으로 인한 세션 간 컨텍스트 단절 문제와 단순 Context Window 확장이 초래하는 Token 비용 증가 및 Latency 병목 현상 발생. 기존의 Retrieval 기반 메모리 시스템이 데이터를 단순 저장 및 쿼리하는 Database 관점에 머물러 실제 Agent의 실시간 인지 능력으로 이어지지 못하는 한계 노출.
Technical Solution
- Retrieval pipeline과 Vector Database를 완전히 제거하여 쿼리당 발생하는 추가 Latency 원천 차단
- 메모리를 외부 저장소가 아닌 System Prompt에 내장하여 Agent가 상시 활성화된 상태로 인지하는 'Working Model' 구조 설계
- 무제한 데이터 축적이 아닌 엄격한 Character Limit과 큐레이션 과정을 통한 메모리 크기 최적화 및 Noise 제거
- 단순 데이터 덤프(Context)와 정제된 경험의 추출(Memory)을 구분하여 핵심 정보만 응축하는 Distillation 로직 적용
- 내부 메모리는 System Prompt 기반의 상주형으로 유지하고, 대규모 지식은 외부 Library(Obsidian, Notion 등)로 분리하는 계층적 정보 처리 구조 채택
- 핵심 인사이트만 내부 메모리로 전이시키고 나머지는 외부 저장소에서 필요 시 조회하는 하이브리드 접근 방식 구현
실천 포인트
- Agent 설계 시 모든 데이터를 Vector DB에 넣기보다, 핵심 페르소나와 필수 규칙을 System Prompt에 상주시키는 방안 검토 - Context Window 크기에 의존하지 않고 데이터의 'Curated Distillation' 프로세스를 구축하여 Token 효율성 확보 - 실시간성이 중요한 Agent 인터랙션에서 Retrieval 단계가 만드는 Latency가 사용자 경험에 미치는 영향 분석 - 'Brain(상주 메모리)'과 'Library(외부 지식 베이스)'의 역할을 명확히 구분하여 아키텍처 설계