피드로 돌아가기
Everbench: A document management system with Local Intelligence
Dev.toDev.to
AI/ML

Gemma 4 기반 Quality Gate 도입을 통한 HTML-to-MD 파이프라인 신뢰성 확보

Everbench: A document management system with Local Intelligence

Jordan Henderson2026년 5월 25일3intermediate

Context

웹 페이지 수집 과정에서 발생하는 Paywall, SPA Shell 등 비정형 데이터로 인한 낮은 추출 품질 문제 해결 필요. LLM에 원시 HTML을 직접 입력할 때 발생하는 Prompt Injection 보안 취약점과 처리 효율성 저하라는 제약 사항 존재.

Technical Solution

  • Gumbo C Parser를 통한 HTML-to-Markdown 변환으로 정형 데이터 추출 및 Script, Style 등 불필요한 요소 제거
  • LLM 입력 전 단계에 결정론적(Deterministic) 파서를 배치하여 Prompt Injection 공격 경로를 사전에 차단하는 보안 경계 구축
  • Gemma 4를 단순 처리기가 아닌 Quality Gate로 설계하여 추출된 Markdown의 가독성 및 유효성을 판별하는 판정자(Judge) 역할 부여
  • Gemma-4-26B-E4B 모델을 채택하여 요약, 태깅 및 품질 검증 작업의 성능과 추론 속도 간 최적 밸런스 확보
  • Obsidian Vault 저장 방식을 통한 데이터의 로컬 저장 및 개인 정보 보호 중심의 컴포저블 아키텍처 구현

- LLM 파이프라인 전단에 결정론적 파서를 배치하여 입력 데이터 정제 및 Prompt Injection 방어 여부 검토 - LLM을 메인 프로세스가 아닌 결과물의 유효성을 검증하는 Quality Gate로 활용하는 아키텍처 고려 - 로컬 LLM 도입 시 모델 파라미터 크기에 따른 추론 속도와 작업 정확도의 Trade-off 분석 수행

원문 읽기