피드로 돌아가기
Reduce LLM Token Waste in RAG with Markdown
Dev.toDev.to
AI/ML

Markdown 변환을 통한 RAG 토큰 소모 90% 절감 및 검색 정확도 향상

Reduce LLM Token Waste in RAG with Markdown

AlterLab2026년 6월 16일8intermediate

Context

웹 데이터 기반 RAG 구축 시 raw HTML의 CSS, Script 등 비정형 마크업으로 인한 토큰 낭비 발생. HTML 노이즈가 Embedding 모델의 벡터 표현력을 저하시켜 검색 결과의 시맨틱 정확도를 떨어뜨리는 병목 지점 형성.

Technical Solution

  • Headless Browser 기반 JS 실행을 통한 SPA(Single Page Application)의 동적 DOM 렌더링 확보
  • Readability.js 기반의 DOM Sanitization을 적용하여 nav, footer 등 불필요한 보일러플레이트 제거
  • HTML 구조를 Semantic Markdown으로 변환하여 계층 구조 유지 및 구문 오버헤드 최소화
  • User Interaction 시뮬레이션을 통한 Accordion, Tab 내 숨겨진 컨텐츠의 강제 렌더링 및 추출
  • Proxy Rotation 및 Anti-bot 처리 로직을 통한 웹 서버의 Rate Limiting 및 IP 차단 우회
  • 비동기 큐 기반의 URL 처리 및 Exponential Backoff 적용으로 데이터 수집 파이프라인의 내결함성 확보

- 정적 크롤링 대신 Headless Browser를 통한 최종 Rendered DOM 추출 여부 검토 - 텍스트 밀도 및 Link-to-Text 비율 기반의 DOM Pruning 로직 구현 - RAG 파이프라인 내 입력 토큰 수 모니터링 및 이상 징후 알림 설정 - UI 컴포넌트에 숨겨진 데이터를 추출하기 위한 인터랙션 스크립트 적용

원문 읽기