피드로 돌아가기
Dev.toAI/ML
원문 읽기
X-Hermes-Session-Id를 통한 선형적 토큰 비용 제거 및 지속적 상태 압축 아키텍처 구현
Inside Hermes Agent's Session Memory: What X-Hermes-Session-Id Actually Does
AI 요약
Context
기존 챗봇의 대화 기록 저장 방식은 턴 수가 증가함에 따라 전송 토큰량이 선형적으로 증가하는 비용 및 성능 문제가 발생함. 모든 대화 로그를 다시 전송하는 Naive 모델의 한계로 인해 장기 실행 에이전트의 컨텍스트 윈도우 관리가 불가능한 상황임.
Technical Solution
- raw transcript의 단순 재전송 대신 지속적으로 업데이트되는 Compressed State 유지 구조 채택
- X-Hermes-Session-Id를 고립된 Memory Namespace로 정의하여 세션 간 데이터 간섭을 원천 차단
- 명시적 사실, 인과 관계, 시간적 표식, 정보 모순 등의 핵심 정보를 우선적으로 추출하는 Distillation 로직 적용
- RAG의 단순 텍스트 검색이 아닌 사실 간의 관계와 이해도를 보존하는 Reasoning State 관리 방식 도입
- /api/jobs 엔드포인트를 통한 스케줄링 통합으로 누적된 세션 메모리에 기반한 자율적 Introspection 구현
- OpenAI 호환 API 레이어 설계를 통한 기존 Stateless 코드의 Zero-cost 마이그레이션 지원
실천 포인트
1. LLM 세션 설계 시 단순 History Append 방식이 아닌 State Compression 전략 검토
2. 도메인 기반의 Session ID 네이밍 패턴(예: user:{id}, repo:{name})을 통한 메모리 격리 구조 설계
3. 단순 검색(Retrieval)과 상태 유지(Retention)의 차이를 구분하여 인과 관계 분석이 필요한 요구사항에 적용
4. 추론 시간이 긴 상태 기반 응답의 UX 저하를 막기 위한 Streaming Endpoint 필수 적용