Markdown 변환 및 DOM 정제로 RAG 토큰 비용 97% 절감

Optimizing Web Scraping Data to Reduce RAG Token Costs

AlterLab2026년 4월 23일7분intermediate

AI 요약

Context

Raw HTML을 RAG 파이프라인에 직접 투입함에 따른 과도한 Token 소모와 비용 발생 문제. 불필요한 DOM 요소로 인한 Vector DB 노이즈 증가 및 LLM의 컨텍스트 희석으로 인한 Retrieval 정확도 저하 상황.

Technical Solution

BeautifulSoup 기반의 Aggressive DOM Stripping을 통한 script, style, svg 등 시맨틱 가치 없는 태그 제거
단순 Text 추출 대신 Markdown 변환을 채택하여 문서의 구조적 계층 및 시맨틱 경계 보존
MarkdownHeaderTextSplitter를 활용한 헤더 기준 Semantic Chunking으로 응답 일관성 확보 및 Hallucination 방지
Headless Browser 운영 부담을 줄이기 위한 Scraping API 기반의 Extraction Layer 오프로딩 전략 채택
데이터 전처리와 LLM Ingestion 단계를 엄격히 분리한 Transformation Layer 설계

실천 포인트

- RAG 입력 전 script, style, svg 등 비시맨틱 태그 제거 프로세스 적용 - Plain Text 대신 Markdown 포맷을 사용하여 문서 계층 구조 유지 - 단순 글자 수 기반 Chunking 대신 헤더 기준의 Semantic Splitter 검토 - 자체 렌더링 인프라 구축 대신 전처리 기능을 제공하는 외부 Scraping API 도입 고려

태그

#Markdown #RAG #Semantic Chunking #Token Optimization #Data Pipeline

원문 읽기