불규칙한 HTML 구조 극복을 위한 LLM 기반 Semantic Extraction 도입

When HTML parsing fails: using LLMs to extract messy web data

zhongqiyue2026년 6월 5일6분intermediate

AI 요약

Context

웹사이트 레이아웃의 빈번한 변경과 복잡한 Nested Div 구조로 인해 CSS Selector 및 XPath 기반의 전통적 Parsing 방식이 한계에 도달함. 정적인 구조 의존성으로 인한 파이프라인 붕괴와 지속적인 유지보수 비용 상승이 주요 병목 지점으로 작용함.

Technical Solution

HTML 구조가 아닌 데이터의 의미론적 정의(Semantic Definition)에 집중한 추출 전략으로 전환
BeautifulSoup을 통한 Script, Style, SVG 등 노이즈 태그 제거로 Context Window 효율 최적화
정의된 JSON Schema를 Prompt에 포함하여 LLM이 HTML 내 데이터 매핑을 스스로 수행하는 구조 설계
Temperature 0.0 설정을 통한 결정론적 출력 유도 및 JSON 형식의 응답 강제
정적 파싱 실패 시 LLM으로 전환하는 Fallback 전략 및 결과값 검증 단계 도입 제안
Context 길이 제한 해결을 위한 HTML Truncation 및 Chunking 기법 적용

실천 포인트

- Stable한 사이트는 전통적 Parser를 사용하고, Dynamic한 사이트에만 LLM을 적용하는 Hybrid Architecture 검토 - LLM Hallucination 방지를 위해 추출된 데이터의 타입과 범위를 검증하는 Validation Layer 구축 - 비용 절감을 위해 GPT-4o-mini 등 경량 모델 적용 후 정확도 벤치마크 수행 - Few-shot Prompting을 통해 모호한 필드의 추출 정확도 향상 시도

태그

#Semantic Extraction #Prompt Engineering #JSON Schema #Web Scraping #LLM

원문 읽기