피드로 돌아가기
Dev.toAI/ML
원문 읽기
Markdown 변환 및 DOM 정제로 RAG 토큰 비용 97% 절감
Optimizing Web Scraping Data to Reduce RAG Token Costs
AI 요약
Context
Raw HTML을 RAG 파이프라인에 직접 투입함에 따른 과도한 Token 소모와 비용 발생 문제. 불필요한 DOM 요소로 인한 Vector DB 노이즈 증가 및 LLM의 컨텍스트 희석으로 인한 Retrieval 정확도 저하 상황.
Technical Solution
- BeautifulSoup 기반의 Aggressive DOM Stripping을 통한 script, style, svg 등 시맨틱 가치 없는 태그 제거
- 단순 Text 추출 대신 Markdown 변환을 채택하여 문서의 구조적 계층 및 시맨틱 경계 보존
- MarkdownHeaderTextSplitter를 활용한 헤더 기준 Semantic Chunking으로 응답 일관성 확보 및 Hallucination 방지
- Headless Browser 운영 부담을 줄이기 위한 Scraping API 기반의 Extraction Layer 오프로딩 전략 채택
- 데이터 전처리와 LLM Ingestion 단계를 엄격히 분리한 Transformation Layer 설계
실천 포인트
- RAG 입력 전 script, style, svg 등 비시맨틱 태그 제거 프로세스 적용 - Plain Text 대신 Markdown 포맷을 사용하여 문서 계층 구조 유지 - 단순 글자 수 기반 Chunking 대신 헤더 기준의 Semantic Splitter 검토 - 자체 렌더링 인프라 구축 대신 전처리 기능을 제공하는 외부 Scraping API 도입 고려