피드로 돌아가기
Dev.toAI/ML
원문 읽기
IBM Granite-30M 및 ONNX 기반의 Local-first 지식 관리 엔진 구축
Neonmem 0.9.7 is out.
AI 요약
Context
기존 임포터의 단일 구조로 인한 데이터 평탄화 문제와 외부 API 의존성으로 인한 프라이버시 및 비용 리스크 존재. LLM의 환각 현상으로 인해 사용자 데이터 기반의 정확한 정보 회복(Recall)이 어려운 한계 직면.
Technical Solution
- 데이터 성격에 따른 Two-level Importer 설계를 통한 Knowledge Pool(문서/코드)과 Typed Memories(에이전트 결정사항)의 분리 저장
- IBM Granite-30M 모델을 fused fp16 ONNX graph로 변환하여 GPU 없이 CPU만으로 구동 가능한 Local Embedding 환경 구현
- Reflexes → Short-term → Long-term → Facts Pool 순의 계층적 메모리 탐색 구조를 통한 정밀한 Context Retrieval 수행
- Content-addressed 및 압축 기술을 적용한 단일 Cartridge 구조로 소스 데이터의 무결성 유지 및 전체 코퍼스 재구성 가능성 확보
- AES-256-GCM 암호화를 통한 데이터 저장소의 보안성 강화 및 Model Context Protocol 기반의 에이전트 통합 인터페이스 구축
- 원문 소스와의 엄격한 연결을 통한 Grounded Recall 원칙 적용으로 근거 없는 답변 생성을 원천 차단하는 Abstention 전략 채택
실천 포인트
1. 도메인 특화 데이터 처리 시 단순 벡터화 대신 데이터의 성격(사실 vs 결정사항)에 따른 스키마 분리 검토
2. 추론 비용 절감 및 프라이버시 확보를 위해 ONNX Runtime 기반의 경량 로컬 모델 도입 가능성 분석
3. RAG 시스템 설계 시 '모름'을 인정하는 Abstention 로직을 구현하여 할루시네이션 방지책 마련
4. 흩어진 소스 데이터를 단일 content-addressed 파일로 관리하여 데이터 이식성과 복구 가능성 확보