피드로 돌아가기
Dev.toAI/ML
원문 읽기
Graph 기반 LLM Wiki 구축을 통한 RAG의 Semantic Search 한계 극복
LLM wiki for the historical research
AI 요약
Context
기존 RAG 시스템의 Vector Similarity 기반 Semantic Search가 갖는 블랙박스 특성과 낮은 예측 가능성을 문제로 식별. 특정 도메인의 정밀한 탐색을 위해 비정형 데이터를 구조화된 Graph 형태의 Knowledge Base로 전환하는 접근 방식 채택.
Technical Solution
- OCR 병목 해결을 위해 DjVuLibre를 통한 PDF 변환 후 Qwen-3.6 모델 기반의 Vision-Language 처리 파이프라인 설계
- 거대 컨텍스트로 인한 성능 저하 및 중복 처리 방지를 위해 Bash Script를 통한 CLI 단위의 Single-file Loop 호출 구조 적용
- 단순 텍스트 추출을 넘어 Paragraph 단위의 Logical Chunking을 통한 데이터 정규화 단계 구축
- AGENTS.md 정의를 통해 LLM이 Wiki의 Digest, Lint, Use 프로세스를 자율적으로 수행하는 프레임워크 구성
- LLM의 환각(Hallucination) 및 임의 노드 생성 방지를 위해 단계별 데이터 검증과 인크리멘탈 수정 체계 도입
실천 포인트
- LLM 기반 데이터 파이프라인 구축 시 Single-file 단위의 Stateless 호출로 Context Window 오버플로우 방지 - RAG의 정확도 제고를 위해 Vector DB 의존도를 낮추고 명시적 Graph 구조의 Knowledge Base 도입 검토 - 비정형 데이터의 정형화 과정에서 LLM의 자의적 판단을 제어할 수 있는 Linting 및 Cross-checking 단계 필수 배치