피드로 돌아가기
Inside Hermes Agent's Session Memory: What X-Hermes-Session-Id Actually Does
Dev.toDev.to
AI/ML

X-Hermes-Session-Id를 통한 선형적 토큰 비용 제거 및 지속적 상태 압축 아키텍처 구현

Inside Hermes Agent's Session Memory: What X-Hermes-Session-Id Actually Does

pulkitgovrani2026년 5월 25일7intermediate

Context

기존 챗봇의 대화 기록 저장 방식은 턴 수가 증가함에 따라 전송 토큰량이 선형적으로 증가하는 비용 및 성능 문제가 발생함. 모든 대화 로그를 다시 전송하는 Naive 모델의 한계로 인해 장기 실행 에이전트의 컨텍스트 윈도우 관리가 불가능한 상황임.

Technical Solution

  • raw transcript의 단순 재전송 대신 지속적으로 업데이트되는 Compressed State 유지 구조 채택
  • X-Hermes-Session-Id를 고립된 Memory Namespace로 정의하여 세션 간 데이터 간섭을 원천 차단
  • 명시적 사실, 인과 관계, 시간적 표식, 정보 모순 등의 핵심 정보를 우선적으로 추출하는 Distillation 로직 적용
  • RAG의 단순 텍스트 검색이 아닌 사실 간의 관계와 이해도를 보존하는 Reasoning State 관리 방식 도입
  • /api/jobs 엔드포인트를 통한 스케줄링 통합으로 누적된 세션 메모리에 기반한 자율적 Introspection 구현
  • OpenAI 호환 API 레이어 설계를 통한 기존 Stateless 코드의 Zero-cost 마이그레이션 지원

1. LLM 세션 설계 시 단순 History Append 방식이 아닌 State Compression 전략 검토

2. 도메인 기반의 Session ID 네이밍 패턴(예: user:{id}, repo:{name})을 통한 메모리 격리 구조 설계

3. 단순 검색(Retrieval)과 상태 유지(Retention)의 차이를 구분하여 인과 관계 분석이 필요한 요구사항에 적용

4. 추론 시간이 긴 상태 기반 응답의 UX 저하를 막기 위한 Streaming Endpoint 필수 적용

원문 읽기