피드로 돌아가기
Hacker NewsHacker News
Backend

Show HN: Robust LLM Extractor for Websites in TypeScript

Lightfeed가 TypeScript 라이브러리로 LLM과 Playwright를 결합해 자연어 프롬프트 기반 웹 데이터 추출 및 JSON 복구 기능 제공

2026년 3월 26일7intermediate

Context

웹 스크래핑 파이프라인에서 HTML을 구조화된 데이터로 변환할 때 LLM의 JSON 파싱 실패, 상대 URL 처리, 추적 파라미터 제거 등의 문제가 발생한다.

Technical Solution

  • Playwright 브라우저 자동화를 로컬, 서버리스, 원격 서버 모드로 실행: 안티봇 패치 및 프록시 설정으로 탐지 회피 구현
  • HTML을 LLM 입력용 마크다운으로 변환: extractMainHtml, includeImages, cleanUrls 옵션으로 노이즈 제거
  • Zod 스키마 기반 JSON 모드 추출: 토큰 사용량 추적 및 제한 기능 포함
  • JSON 복구 기능 구현: 실패한 LLM 출력을 새니타이징하여 중첩 객체 및 배열 처리 개선
  • URL 검증 및 복구: 상대 URL 처리, 유효하지 않은 URL 제거, 마크다운 이스케이프 링크 복구

Impact

아티클에서 정량적 수치 미제공

Key Takeaway

프로덕션 데이터 파이프라인에서 LLM 기반 웹 추출 시 HTML 정규화, JSON 복구, URL 검증을 라이브러리 수준에서 처리하면 토큰 효율성을 유지하면서 추출 안정성을 확보할 수 있다.


대규모 e-커머스 가격 모니터링 시스템에서 @lightfeed/extractor와 Zod 스키마를 조합하면 Playwright의 headless 모드 + 자동 JSON 복구로 복잡한 구조의 상품 데이터(가격, 평점, 리뷰 수 등)를 한 번의 LLM 호출로 안정적으로 추출할 수 있으며, cleanUrls 옵션으로 추적 파라미터를 제거해 데이터 정규화 비용을 절감할 수 있다.

원문 읽기