피드로 돌아가기
Dev.toAI/ML
원문 읽기
LLM 기반 웹 스크래핑으로 HTML 구조 변경에도 데이터 추출 가능함
Using GPT-4 and Claude to Extract Structured Data From Any Webpage in 2026
AI 요약
Context
전통적인 웹 스크래핑은 HTML 구조가 변경되면 파서가 작동하지 않는 한계가 있음. 뉴스 사이트, A/B 테스트 중인 이커머스, 다양한 사이트의 일회성 추출 시 구조 유지가 어려움.
Technical Solution
- GPT-4o-mini: BeautifulSoup로 HTML 정제 후 텍스트 추출, schema 기반으로 구조화 JSON 반환함
- Pydantic Validation: OpenAI beta.chat.completions.parse로 타입 안전성과 유효성 검사 자동화함
- Claude Haiku: Amazon, Anthropic API 조합으로 gpt-4o-mini 대비 30% 낮은 비용으로 동일 기능 제공함
- Hybrid Approach: CSS 선택자 먼저 시도 후 실패 시 LLM 폴백으로 속도와 안정성 확보함
Impact
GPT-4o-mini 기준 페이지당 $0.0002, 1000페이지 스크래핑 시 $0.20 비용 발생함. CSS 선택자 대비 비용 발생하지만 구조 변경에 강한 유연성 확보함.
Key Takeaway
스크래핑 대상 구조가 자주 변경되거나 다수의 사이트를 관리해야 할 때 LLM 기반 추출이 전통적 파싱보다 유지보수 비용이 낮음.
실천 포인트
알려진 구조의 사이트는 CSS 선택자로 무료、高速 스크래핑하고, 구조가 자주 변경되거나 알 수 없는 사이트는 GPT-4o-mini 또는 Claude Haiku 폴백을 구현할 것. 토큰 비용 최적화를 위해 script, style, meta 태그 사전 제거 및 12000자 텍스트 자르기 권장함.