RAG 도입을 통한 Token 40배 절감 및 컨텍스트 혼선 해결

Karpathy's Obsidian Wiki Broke at 100 Articles - RAG Fixed It

Zafer Dace2026년 4월 17일12분intermediate

AI 요약

Context

전체 위키 문서를 LLM Context Window에 직접 주입하는 구조 설계. 문서 수 증가에 따라 토큰 소모량이 200K~400K에 도달하며 모델의 정보 스캐닝 현상과 이로 인한 confident wrong 답변 발생.

Technical Solution

전체 문서 주입 방식에서 검색 기반의 Retrieval Augmented Generation 구조로 전환
ChromaDB 기반의 Local Vector Database 구축을 통한 효율적인 시맨틱 검색 구현
마크다운 헤딩(#, ##, ###) 기준의 Section-level Chunking 전략 적용
파일 경로, 헤딩, 라인 번호를 Metadata로 저장하여 결과의 추적 가능성 확보
파일 저장 시 자동 재인덱싱을 수행하는 PostToolUse Hook 기반의 데이터 동기화 체계 구축
Top-N 관련 청크만 선별 주입하여 LLM의 메모리 부하를 제거하고 추론 정확도 향상

실천 포인트

- 컨텍스트 윈도우가 충분하더라도 데이터 규모 증가 시 정보 혼선 가능성 검토 - 문서 구조(Heading)를 활용한 의미 단위의 Chunking 전략 수립 - 데이터 최신성 유지를 위한 자동 인덱싱 파이프라인(Event-driven Hook) 설계 - Vector DB 도입 시 메타데이터 설계를 통한 원문 참조 경로 확보

태그

#Context Window #RAG #Vector Database #Semantic Search #ChromaDB

원문 읽기