피드로 돌아가기
Karpathy's Obsidian Wiki Broke at 100 Articles - RAG Fixed It
Dev.toDev.to
AI/ML

RAG 도입을 통한 Token 40배 절감 및 컨텍스트 혼선 해결

Karpathy's Obsidian Wiki Broke at 100 Articles - RAG Fixed It

Zafer Dace2026년 4월 17일12intermediate

Context

전체 위키 문서를 LLM Context Window에 직접 주입하는 구조 설계. 문서 수 증가에 따라 토큰 소모량이 200K~400K에 도달하며 모델의 정보 스캐닝 현상과 이로 인한 confident wrong 답변 발생.

Technical Solution

  • 전체 문서 주입 방식에서 검색 기반의 Retrieval Augmented Generation 구조로 전환
  • ChromaDB 기반의 Local Vector Database 구축을 통한 효율적인 시맨틱 검색 구현
  • 마크다운 헤딩(#, ##, ###) 기준의 Section-level Chunking 전략 적용
  • 파일 경로, 헤딩, 라인 번호를 Metadata로 저장하여 결과의 추적 가능성 확보
  • 파일 저장 시 자동 재인덱싱을 수행하는 PostToolUse Hook 기반의 데이터 동기화 체계 구축
  • Top-N 관련 청크만 선별 주입하여 LLM의 메모리 부하를 제거하고 추론 정확도 향상

- 컨텍스트 윈도우가 충분하더라도 데이터 규모 증가 시 정보 혼선 가능성 검토 - 문서 구조(Heading)를 활용한 의미 단위의 Chunking 전략 수립 - 데이터 최신성 유지를 위한 자동 인덱싱 파이프라인(Event-driven Hook) 설계 - Vector DB 도입 시 메타데이터 설계를 통한 원문 참조 경로 확보

원문 읽기