피드로 돌아가기
Free Website to Markdown Converter for LLM and RAG Pipelines
Dev.toDev.to
AI/ML

RAG 파이프라인 최적화를 위한 무설치 Markdown 변환 자동화 구조 설계

Free Website to Markdown Converter for LLM and RAG Pipelines

Juan Triviño2026년 5월 5일2beginner

Context

LLM 학습 및 RAG 파이프라인 구축 시 raw HTML 데이터의 낮은 가독성과 구조적 결함으로 인한 전처리 병목 발생. 기존 정규표현식 기반 커스텀 파서의 경우 복잡한 DOM 구조 대응 불가 및 지속적인 유지보수 비용 발생이라는 한계 직면.

Technical Solution

  • Apify 플랫폼 기반 Serverless 아키텍처 채택을 통한 인프라 관리 오버헤드 제거
  • HTML 내 script, style 태그 제거 및 정규표현식 기반의 계층적 Heading 변환 로직 적용
  • Open Graph 데이터 및 Meta Description 추출을 통한 문서 컨텍스트 보존 구조 설계
  • Vector Database 주입에 최적화된 Structured JSON 및 Markdown 포맷 출력 구현
  • Python 기반의 의존성 최소화 설계를 통한 런타임 효율성 확보

1. LLM 입력 데이터의 Noise 제거를 위해 HTML 태그의 구조적 정제 단계 검토

2. RAG 성능 향상을 위해 단순 텍스트 추출이 아닌 Metadata와 Markdown 구조 보존 여부 확인

3. 초기 파이프라인 구축 시 Serverless 플랫폼을 활용하여 인프라 설정 시간 단축 고려

원문 읽기