IBM Granite-30M 및 ONNX 기반의 Local-first 지식 관리 엔진 구축

Neonmem 0.9.7 is out.

Neonmem Dev Team2026년 6월 24일3분intermediate

AI 요약

Context

기존 임포터의 단일 구조로 인한 데이터 평탄화 문제와 외부 API 의존성으로 인한 프라이버시 및 비용 리스크 존재. LLM의 환각 현상으로 인해 사용자 데이터 기반의 정확한 정보 회복(Recall)이 어려운 한계 직면.

데이터 성격에 따른 Two-level Importer 설계를 통한 Knowledge Pool(문서/코드)과 Typed Memories(에이전트 결정사항)의 분리 저장
IBM Granite-30M 모델을 fused fp16 ONNX graph로 변환하여 GPU 없이 CPU만으로 구동 가능한 Local Embedding 환경 구현
Reflexes → Short-term → Long-term → Facts Pool 순의 계층적 메모리 탐색 구조를 통한 정밀한 Context Retrieval 수행
Content-addressed 및 압축 기술을 적용한 단일 Cartridge 구조로 소스 데이터의 무결성 유지 및 전체 코퍼스 재구성 가능성 확보
AES-256-GCM 암호화를 통한 데이터 저장소의 보안성 강화 및 Model Context Protocol 기반의 에이전트 통합 인터페이스 구축
원문 소스와의 엄격한 연결을 통한 Grounded Recall 원칙 적용으로 근거 없는 답변 생성을 원천 차단하는 Abstention 전략 채택

실천 포인트

1. 도메인 특화 데이터 처리 시 단순 벡터화 대신 데이터의 성격(사실 vs 결정사항)에 따른 스키마 분리 검토

2. 추론 비용 절감 및 프라이버시 확보를 위해 ONNX Runtime 기반의 경량 로컬 모델 도입 가능성 분석

3. RAG 시스템 설계 시 '모름'을 인정하는 Abstention 로직을 구현하여 할루시네이션 방지책 마련

4. 흩어진 소스 데이터를 단일 content-addressed 파일로 관리하여 데이터 이식성과 복구 가능성 확보

태그