피드로 돌아가기
Dev.toBackend
원문 읽기
Web2MD가 웹페이지를 Markdown으로 변환하여 LLM 입력 토큰 80~86% 절감 및 월간 API 비용 83% 감축
How to Convert Any Webpage to Clean Markdown for AI Workflows
AI 요약
Context
웹페이지를 LLM에 직접 입력할 때 raw HTML이 네비게이션 바, 광고, 스크립트, 레이아웃 등으로 인해 컨텍스트 윈도우의 80~90%를 낭비하고 있다. 1,500단어 블로그 포스트가 50~80KB HTML로 존재하지만 실제 콘텐츠는 6~8KB에 불과하므로 가치가 없는 토큰에 비용을 지불하게 된다.
Technical Solution
- raw HTML을 구조화된 Markdown으로 변환: 130개 이상의 CSS 선택자를 활용한 보일러플레이트 제거
- 14개 플랫폼별 전용 추출기 개발: YouTube 자막, Reddit 스레드, GitHub README, arXiv 논문 등 플랫폼별 최적화
- 로컬 처리 방식 채택: 모든 변환 작업이 브라우저 내에서 수행되며 외부 서버로 데이터 업로드 없음
- Chrome 확장 프로그램으로 제공: 한 번의 클릭으로 모든 웹페이지 변환 가능
Impact
- 뉴스 기사: raw HTML 14,800토큰 → clean Markdown 2,100토큰 (86% 감소)
- React 문서: 22,400토큰 → 5,800토큰 (74% 감소)
- Reddit 스레드: 38,600토큰 → 6,200토큰 (84% 감소)
- GPT-4o 요금 기준 월 30페이지 처리 시 비용 $1.50 → $0.30 (80% 감소, 월간 $36 절감)
Key Takeaway
LLM에 외부 콘텐츠를 입력할 때 raw HTML 대신 Markdown으로 정규화하면 토큰 효율성과 비용 최적화를 동시에 달성할 수 있으며, 플랫폼별 추출기 구현으로 다양한 콘텐츠 소스에 대응 가능하다.
실천 포인트
AI 워크플로우에서 웹 콘텐츠를 활용하는 팀은 웹 스크래핑 단계에서 Markdown 변환을 거쳐야 하며, 이를 통해 LLM API 호출 비용을 월 30~80% 범위에서 절감할 수 있다.