5ms 내 HTML 노이즈 제거를 통한 LLM 토큰 효율 극대화

How to Convert Webpages into Clean Markdown for LLMs (in 5ms)

Ibrahim Abdulmajid2026년 6월 7일3분intermediate

AI 요약

Context

HTML 내 내비게이션 바, 광고, 스크립트 등 불필요한 마크업으로 인한 LLM Token 낭비 발생. 원시 HTML 데이터를 그대로 사용할 경우 최대 80%의 Token Window가 무의미한 데이터로 채워져 API 비용 상승 및 모델 추론 성능 저하 초래.

실천 포인트

1. LLM 전달 전 HTML에서 script/style/nav 등 Boilerplate 태그 제거 여부 확인

2. article/main 등 시맨틱 태그 기반의 핵심 콘텐츠 추출 로직 우선 적용

3. 원시 텍스트보다 구조 정보가 유지되는 Markdown 포맷 변환 검토

4. 처리 지연 시간 최소화를 위해 Edge 기반의 경량 전처리 서비스 도입 고려

태그