피드로 돌아가기
Dev.toAI/ML
원문 읽기
RAG 도입을 통한 Token 40배 절감 및 컨텍스트 혼선 해결
Karpathy's Obsidian Wiki Broke at 100 Articles - RAG Fixed It
AI 요약
Context
전체 위키 문서를 LLM Context Window에 직접 주입하는 구조 설계. 문서 수 증가에 따라 토큰 소모량이 200K~400K에 도달하며 모델의 정보 스캐닝 현상과 이로 인한 confident wrong 답변 발생.
Technical Solution
- 전체 문서 주입 방식에서 검색 기반의 Retrieval Augmented Generation 구조로 전환
- ChromaDB 기반의 Local Vector Database 구축을 통한 효율적인 시맨틱 검색 구현
- 마크다운 헤딩(#, ##, ###) 기준의 Section-level Chunking 전략 적용
- 파일 경로, 헤딩, 라인 번호를 Metadata로 저장하여 결과의 추적 가능성 확보
- 파일 저장 시 자동 재인덱싱을 수행하는 PostToolUse Hook 기반의 데이터 동기화 체계 구축
- Top-N 관련 청크만 선별 주입하여 LLM의 메모리 부하를 제거하고 추론 정확도 향상
실천 포인트
- 컨텍스트 윈도우가 충분하더라도 데이터 규모 증가 시 정보 혼선 가능성 검토 - 문서 구조(Heading)를 활용한 의미 단위의 Chunking 전략 수립 - 데이터 최신성 유지를 위한 자동 인덱싱 파이프라인(Event-driven Hook) 설계 - Vector DB 도입 시 메타데이터 설계를 통한 원문 참조 경로 확보