Markdown 변환 기반 Token 소비 90% 절감 및 pgvector RAG 설계

Build a Token-Efficient RAG Pipeline with pgvector & Markdown

AlterLab2026년 6월 2일7분intermediate

AI 요약

Context

웹 스크래핑 기반 RAG 구축 시 Raw HTML의 Boilerplate로 인한 Token 낭비와 문맥 손실 발생. 단순 텍스트 추출 시 HTML 태그가 가진 계층적 Semantic 구조가 소멸하여 LLM의 응답 품질이 저하되는 한계 존재.

실천 포인트

1. HTML 스크래핑 시 단순 텍스트 추출 대신 Markdown 변환 도구 적용 검토

2. 고정 길이 Chunking 대신 문서 헤더 기반의 Semantic Chunking 도입

3. Vector DB 도입 전 pgvector를 통한 인프라 복잡도 최소화 가능성 평가

4. 대규모 데이터 업데이트를 위한 URL Hash 기반의 증분 업데이트 로직 설계

5. 매우 긴 섹션 처리를 위한 10-15% 수준의 Chunk Overlap 설정

태그