피드로 돌아가기
Dev.toAI/ML
원문 읽기
Markdown 변환을 통한 RAG 토큰 소모 90% 절감 및 검색 정확도 향상
Reduce LLM Token Waste in RAG with Markdown
AI 요약
Context
웹 데이터 기반 RAG 구축 시 raw HTML의 CSS, Script 등 비정형 마크업으로 인한 토큰 낭비 발생. HTML 노이즈가 Embedding 모델의 벡터 표현력을 저하시켜 검색 결과의 시맨틱 정확도를 떨어뜨리는 병목 지점 형성.
Technical Solution
- Headless Browser 기반 JS 실행을 통한 SPA(Single Page Application)의 동적 DOM 렌더링 확보
- Readability.js 기반의 DOM Sanitization을 적용하여 nav, footer 등 불필요한 보일러플레이트 제거
- HTML 구조를 Semantic Markdown으로 변환하여 계층 구조 유지 및 구문 오버헤드 최소화
- User Interaction 시뮬레이션을 통한 Accordion, Tab 내 숨겨진 컨텐츠의 강제 렌더링 및 추출
- Proxy Rotation 및 Anti-bot 처리 로직을 통한 웹 서버의 Rate Limiting 및 IP 차단 우회
- 비동기 큐 기반의 URL 처리 및 Exponential Backoff 적용으로 데이터 수집 파이프라인의 내결함성 확보
실천 포인트
- 정적 크롤링 대신 Headless Browser를 통한 최종 Rendered DOM 추출 여부 검토 - 텍스트 밀도 및 Link-to-Text 비율 기반의 DOM Pruning 로직 구현 - RAG 파이프라인 내 입력 토큰 수 모니터링 및 이상 징후 알림 설정 - UI 컴포넌트에 숨겨진 데이터를 추출하기 위한 인터랙션 스크립트 적용