피드로 돌아가기
GeekNewsAI/ML
원문 읽기
GBrain — 오픈소스 개인 지식 베이스
pgvector와 RRF 기반 하이브리드 검색을 적용한 오픈소스 지식 베이스
AI 요약
Context
분산된 마크다운 파일 기반의 지식 관리 한계. 단순 텍스트 저장 방식의 정보 탐색 효율성 저하. 최신 정보 업데이트 시 기존 데이터와의 충돌 및 파편화 문제.
Technical Solution
- Postgres 기반 지식 베이스 통합 및 pgvector HNSW와 tsvector를 결합한 하이브리드 검색 구조
- Reciprocal Rank Fusion(RRF) 알고리즘을 통한 벡터 및 키워드 검색 결과의 최적 랭킹 산출 방식
- Claude Haiku를 활용한 multi-query expansion 및 4단계 중복 제거 파이프라인 설계
- 최신 이해도를 기록하는 compiled truth와 증거를 추적하는 timeline의 분리 모델 적용
- Recursive, Semantic, LLM-guided의 3단계 청킹 전략을 통한 데이터 전처리 품질 최적화
- MCP 서버 기반 20개 툴 제공으로 Claude Code 및 Cursor 등 AI 에이전트와의 직접 연동 체계
Key Takeaway
단순한 데이터 저장을 넘어 compiled truth와 timeline을 분리하여 지식의 진화 과정을 관리하는 아키텍처적 접근 필요. 벡터 검색의 한계를 키워드 검색과 RRF로 보완하는 하이브리드 전략의 실효성 확인.
실천 포인트
LLM 기반 지식 베이스 구축 시, 단순 임베딩 검색보다 multi-query expansion과 RRF를 결합한 하이브리드 검색 도입을 권장함