피드로 돌아가기
When HTML parsing fails: using LLMs to extract messy web data
Dev.toDev.to
AI/ML

불규칙한 HTML 구조 극복을 위한 LLM 기반 Semantic Extraction 도입

When HTML parsing fails: using LLMs to extract messy web data

zhongqiyue2026년 6월 5일6intermediate

Context

웹사이트 레이아웃의 빈번한 변경과 복잡한 Nested Div 구조로 인해 CSS Selector 및 XPath 기반의 전통적 Parsing 방식이 한계에 도달함. 정적인 구조 의존성으로 인한 파이프라인 붕괴와 지속적인 유지보수 비용 상승이 주요 병목 지점으로 작용함.

Technical Solution

  • HTML 구조가 아닌 데이터의 의미론적 정의(Semantic Definition)에 집중한 추출 전략으로 전환
  • BeautifulSoup을 통한 Script, Style, SVG 등 노이즈 태그 제거로 Context Window 효율 최적화
  • 정의된 JSON Schema를 Prompt에 포함하여 LLM이 HTML 내 데이터 매핑을 스스로 수행하는 구조 설계
  • Temperature 0.0 설정을 통한 결정론적 출력 유도 및 JSON 형식의 응답 강제
  • 정적 파싱 실패 시 LLM으로 전환하는 Fallback 전략 및 결과값 검증 단계 도입 제안
  • Context 길이 제한 해결을 위한 HTML Truncation 및 Chunking 기법 적용

- Stable한 사이트는 전통적 Parser를 사용하고, Dynamic한 사이트에만 LLM을 적용하는 Hybrid Architecture 검토 - LLM Hallucination 방지를 위해 추출된 데이터의 타입과 범위를 검증하는 Validation Layer 구축 - 비용 절감을 위해 GPT-4o-mini 등 경량 모델 적용 후 정확도 벤치마크 수행 - Few-shot Prompting을 통해 모호한 필드의 추출 정확도 향상 시도

원문 읽기