Markdown 변환을 통한 RAG 토큰 소모 90% 절감 및 검색 정확도 향상

Reduce LLM Token Waste in RAG with Markdown

AlterLab2026년 6월 16일8분intermediate

AI 요약

Context

웹 데이터 기반 RAG 구축 시 raw HTML의 CSS, Script 등 비정형 마크업으로 인한 토큰 낭비 발생. HTML 노이즈가 Embedding 모델의 벡터 표현력을 저하시켜 검색 결과의 시맨틱 정확도를 떨어뜨리는 병목 지점 형성.

Technical Solution

Headless Browser 기반 JS 실행을 통한 SPA(Single Page Application)의 동적 DOM 렌더링 확보
Readability.js 기반의 DOM Sanitization을 적용하여 nav, footer 등 불필요한 보일러플레이트 제거
HTML 구조를 Semantic Markdown으로 변환하여 계층 구조 유지 및 구문 오버헤드 최소화
User Interaction 시뮬레이션을 통한 Accordion, Tab 내 숨겨진 컨텐츠의 강제 렌더링 및 추출
Proxy Rotation 및 Anti-bot 처리 로직을 통한 웹 서버의 Rate Limiting 및 IP 차단 우회
비동기 큐 기반의 URL 처리 및 Exponential Backoff 적용으로 데이터 수집 파이프라인의 내결함성 확보

실천 포인트

- 정적 크롤링 대신 Headless Browser를 통한 최종 Rendered DOM 추출 여부 검토 - 텍스트 밀도 및 Link-to-Text 비율 기반의 DOM Pruning 로직 구현 - RAG 파이프라인 내 입력 토큰 수 모니터링 및 이상 징후 알림 설정 - UI 컴포넌트에 숨겨진 데이터를 추출하기 위한 인터랙션 스크립트 적용

태그

#Markdown #RAG #Token Optimization #DOM Sanitization #Headless Browser

원문 읽기