피드로 돌아가기
Dev.toAI/ML
원문 읽기
5ms 내 HTML 노이즈 제거를 통한 LLM 토큰 효율 극대화
How to Convert Webpages into Clean Markdown for LLMs (in 5ms)
AI 요약
Context
HTML 내 내비게이션 바, 광고, 스크립트 등 불필요한 마크업으로 인한 LLM Token 낭비 발생. 원시 HTML 데이터를 그대로 사용할 경우 최대 80%의 Token Window가 무의미한 데이터로 채워져 API 비용 상승 및 모델 추론 성능 저하 초래.
Technical Solution
- Custom UA Fetching을 통한 웹사이트 차단 회피 및 원활한 데이터 수집 구조 확보
- Boilerplate Stripping 기법으로 script, style, nav 등 비콘텐츠 태그를 선제적으로 제거하는 전처리 단계 설계
- Core Element Focus 전략을 통해 body 전체가 아닌 article 또는 main 태그 중심의 핵심 콘텐츠 영역 우선 추출
- 정제된 HTML 요소를 의미론적 Markdown 구문으로 변환하여 LLM 최적화 데이터 포맷 생성
- Lightweight Edge Microservice 기반의 파이프라인 구성을 통한 처리 지연 시간 최소화
실천 포인트
1. LLM 전달 전 HTML에서 script/style/nav 등 Boilerplate 태그 제거 여부 확인
2. article/main 등 시맨틱 태그 기반의 핵심 콘텐츠 추출 로직 우선 적용
3. 원시 텍스트보다 구조 정보가 유지되는 Markdown 포맷 변환 검토
4. 처리 지연 시간 최소화를 위해 Edge 기반의 경량 전처리 서비스 도입 고려