Graph 기반 LLM Wiki 구축을 통한 RAG의 Semantic Search 한계 극복

LLM wiki for the historical research

szymon-szym2026년 5월 5일7분intermediate

AI 요약

Context

기존 RAG 시스템의 Vector Similarity 기반 Semantic Search가 갖는 블랙박스 특성과 낮은 예측 가능성을 문제로 식별. 특정 도메인의 정밀한 탐색을 위해 비정형 데이터를 구조화된 Graph 형태의 Knowledge Base로 전환하는 접근 방식 채택.

Technical Solution

OCR 병목 해결을 위해 DjVuLibre를 통한 PDF 변환 후 Qwen-3.6 모델 기반의 Vision-Language 처리 파이프라인 설계
거대 컨텍스트로 인한 성능 저하 및 중복 처리 방지를 위해 Bash Script를 통한 CLI 단위의 Single-file Loop 호출 구조 적용
단순 텍스트 추출을 넘어 Paragraph 단위의 Logical Chunking을 통한 데이터 정규화 단계 구축
AGENTS.md 정의를 통해 LLM이 Wiki의 Digest, Lint, Use 프로세스를 자율적으로 수행하는 프레임워크 구성
LLM의 환각(Hallucination) 및 임의 노드 생성 방지를 위해 단계별 데이터 검증과 인크리멘탈 수정 체계 도입

실천 포인트

- LLM 기반 데이터 파이프라인 구축 시 Single-file 단위의 Stateless 호출로 Context Window 오버플로우 방지 - RAG의 정확도 제고를 위해 Vector DB 의존도를 낮추고 명시적 Graph 구조의 Knowledge Base 도입 검토 - 비정형 데이터의 정형화 과정에서 LLM의 자의적 판단을 제어할 수 있는 Linting 및 Cross-checking 단계 필수 배치

태그

#Context Window #RAG #LLM Pipeline #Knowledge Graph #OCR

원문 읽기