피드로 돌아가기
"Run a Fully Local AI With Persistent Memory: LM Studio + Big RAG Guide"
Dev.toDev.to
AI/ML

Gemma 4와 Big RAG 기반의 Local Persistent Memory AI 시스템 구축

"Run a Fully Local AI With Persistent Memory: LM Studio + Big RAG Guide"

navid mirnouri2026년 4월 26일9intermediate

Context

로컬 LLM 환경의 데이터 프라이버시 확보와 외부 유출 없는 지식 베이스 구축 필요성 증대. 기존 Big RAG 플러그인의 세션 간 컨텍스트 유지 불가 및 휘발성 메모리 구조로 인한 지속적 대화 흐름 단절 발생.

Technical Solution

  • nomic-embed-text-v1.5-GGUF 모델을 활용한 문서의 Vector Embedding 및 로컬 Vector Database 구축
  • Affinity Threshold 조절을 통한 Retrieval 결과의 정밀도 최적화 및 Noise 제거
  • lowdb 기반의 JSON 파일 저장소 도입을 통한 Cross-session Persistent Memory 계층 구현
  • LM Studio의 pullHistory() API를 이용한 Within-session History의 프롬프트 직접 주입
  • 텍스트 슬라이싱 및 요약 로직을 통한 Context Window 효율화 및 토큰 소모 최적화
  • src/promptPreprocessor.ts 수정을 통한 Retrieval 데이터와 과거 세션 메모리의 통합 전처리 프로세스 설계

- 기술 문서 등 밀집도가 높은 데이터 처리 시 Chunk size를 700 tokens로 상향 조정 - Retrieval 정확도 저하 시 Affinity Threshold를

0.2~

0.5 범위 내에서 튜닝 - 컨텍스트 정보 부족 시 Retrieval Limit(Top-k)를 5에서 8로 확장하여 정보 밀도 확보 - 로컬 DB 파일의 무한 증식을 방지하기 위한 주기적인 Memory Pruning 전략 수립

원문 읽기