피드로 돌아가기
Dev.toAI/ML
원문 읽기
知识即管线:KMM v0.0.2 如何让 AI Agent 不再「记了就忘」
40+ 도구 기반 지식 수집-정제-동기화 파이프라인 KMM v0.0.2 구축
AI 요약
Context
기존 AI Agent의 기억 시스템이 단순 저장에 치중하여 지식 수집 단계의 부재로 인한 정보 누락 발생. 데이터 저장소의 파편화로 인해 정밀한 지식 회수가 어려운 구조적 한계 직면.
Technical Solution
- 수집과 기억의 Decoupling을 통한 지식 수집 전용 파이프라인 구축
- 40개 이상의 도구를 활용해 웹, 비디오, 문서 등 멀티모달 데이터를 구조화된 노트 및 Knowledge Graph 노드로 변환
- FTS5(로컬) $\rightarrow$ Hindsight(Vector) $\rightarrow$ gbrain(Knowledge Graph) 순의 3단계 계층적 Recall 구조 설계로 검색 누락 최소화
- rclone bisync를 이용한 CloudSyncEngine 도입으로 12종 이상의 클라우드 스토리지 간 양방향 증분 동기화 구현
- 영상 분석 시 Whisper ASR과 OCR을 병행 처리하여 음성 외 시각적 정보 손실 방지
- 수집 단계의 단순화와 gbrain의 content_hash 기반 중복 제거를 통한 책임 분리(Separation of Concerns) 달성
실천 포인트
1. 멀티모달 데이터 수집 시 텍스트 외 OCR 등 보조 수단을 통해 정보 밀도를 높였는지 검토
2. 데이터 파이프라인 설계 시 수집과 저장 로직을 분리하여 확장성 확보
3. 검색 성능 향상을 위해 단순 Vector Search 외에 FTS와 Knowledge Graph를 조합한 계층적 전략 고려
4. 인프라 동기화 구현 시 바퀴를 다시 발명하지 말고 rclone 같은 표준 도구의 활용 가능성 분석