피드로 돌아가기
Dev.toAI/ML
원문 읽기
Gemma 4와 Big RAG 기반의 Local Persistent Memory AI 시스템 구축
"Run a Fully Local AI With Persistent Memory: LM Studio + Big RAG Guide"
AI 요약
Context
로컬 LLM 환경의 데이터 프라이버시 확보와 외부 유출 없는 지식 베이스 구축 필요성 증대. 기존 Big RAG 플러그인의 세션 간 컨텍스트 유지 불가 및 휘발성 메모리 구조로 인한 지속적 대화 흐름 단절 발생.
Technical Solution
- nomic-embed-text-v1.5-GGUF 모델을 활용한 문서의 Vector Embedding 및 로컬 Vector Database 구축
- Affinity Threshold 조절을 통한 Retrieval 결과의 정밀도 최적화 및 Noise 제거
- lowdb 기반의 JSON 파일 저장소 도입을 통한 Cross-session Persistent Memory 계층 구현
- LM Studio의 pullHistory() API를 이용한 Within-session History의 프롬프트 직접 주입
- 텍스트 슬라이싱 및 요약 로직을 통한 Context Window 효율화 및 토큰 소모 최적화
- src/promptPreprocessor.ts 수정을 통한 Retrieval 데이터와 과거 세션 메모리의 통합 전처리 프로세스 설계
실천 포인트
- 기술 문서 등 밀집도가 높은 데이터 처리 시 Chunk size를 700 tokens로 상향 조정 - Retrieval 정확도 저하 시 Affinity Threshold를
0.2~
0.5 범위 내에서 튜닝 - 컨텍스트 정보 부족 시 Retrieval Limit(Top-k)를 5에서 8로 확장하여 정보 밀도 확보 - 로컬 DB 파일의 무한 증식을 방지하기 위한 주기적인 Memory Pruning 전략 수립