피드로 돌아가기
Dev.toAI/ML
원문 읽기
Markdown 변환 기반 Token 소비 90% 절감 및 pgvector RAG 설계
Build a Token-Efficient RAG Pipeline with pgvector & Markdown
AI 요약
Context
웹 스크래핑 기반 RAG 구축 시 Raw HTML의 Boilerplate로 인한 Token 낭비와 문맥 손실 발생. 단순 텍스트 추출 시 HTML 태그가 가진 계층적 Semantic 구조가 소멸하여 LLM의 응답 품질이 저하되는 한계 존재.
Technical Solution
- Raw HTML 대신 Markdown 포맷을 채택하여 문서 계층 구조 유지 및 Token 최적화 구현
- 고정 길이 분할 방식 대신 Markdown Header 기반의 Semantic Chunking을 도입하여 문맥적 응집도 확보
- 별도의 Vector DB 도입 없이 PostgreSQL pgvector 확장을 활용한 스토리지 및 벡터 검색 단일화
- JavaScript 렌더링 대응 및 Anti-bot 우회 기술을 통한 동적 콘텐츠의 Markdown 변환 파이프라인 구축
- 데이터 변경 대응을 위한 URL Hash 기반의 Upsert 로직 및 Recursive Splitting을 통한 롱-폼 섹션 처리
실천 포인트
1. HTML 스크래핑 시 단순 텍스트 추출 대신 Markdown 변환 도구 적용 검토
2. 고정 길이 Chunking 대신 문서 헤더 기반의 Semantic Chunking 도입
3. Vector DB 도입 전 pgvector를 통한 인프라 복잡도 최소화 가능성 평가
4. 대규모 데이터 업데이트를 위한 URL Hash 기반의 증분 업데이트 로직 설계
5. 매우 긴 섹션 처리를 위한 10-15% 수준의 Chunk Overlap 설정