피드로 돌아가기
Using GPT-4 and Claude to Extract Structured Data From Any Webpage in 2026
Dev.toDev.to
AI/ML

LLM 기반 웹 스크래핑으로 HTML 구조 변경에도 데이터 추출 가능함

Using GPT-4 and Claude to Extract Structured Data From Any Webpage in 2026

Vhub Systems2026년 4월 3일12intermediate

Context

전통적인 웹 스크래핑은 HTML 구조가 변경되면 파서가 작동하지 않는 한계가 있음. 뉴스 사이트, A/B 테스트 중인 이커머스, 다양한 사이트의 일회성 추출 시 구조 유지가 어려움.

Technical Solution

  • GPT-4o-mini: BeautifulSoup로 HTML 정제 후 텍스트 추출, schema 기반으로 구조화 JSON 반환함
  • Pydantic Validation: OpenAI beta.chat.completions.parse로 타입 안전성과 유효성 검사 자동화함
  • Claude Haiku: Amazon, Anthropic API 조합으로 gpt-4o-mini 대비 30% 낮은 비용으로 동일 기능 제공함
  • Hybrid Approach: CSS 선택자 먼저 시도 후 실패 시 LLM 폴백으로 속도와 안정성 확보함

Impact

GPT-4o-mini 기준 페이지당 $0.0002, 1000페이지 스크래핑 시 $0.20 비용 발생함. CSS 선택자 대비 비용 발생하지만 구조 변경에 강한 유연성 확보함.

Key Takeaway

스크래핑 대상 구조가 자주 변경되거나 다수의 사이트를 관리해야 할 때 LLM 기반 추출이 전통적 파싱보다 유지보수 비용이 낮음.


알려진 구조의 사이트는 CSS 선택자로 무료、高速 스크래핑하고, 구조가 자주 변경되거나 알 수 없는 사이트는 GPT-4o-mini 또는 Claude Haiku 폴백을 구현할 것. 토큰 비용 최적화를 위해 script, style, meta 태그 사전 제거 및 12000자 텍스트 자르기 권장함.

원문 읽기