PDF 레이아웃 분석 기반 Markdown 변환을 통한 RAG Retrieval 정확도 개선

Your RAG App Is Broken Because You're Still Parsing PDFs Like It's 2023

hefty2026년 6월 14일2분intermediate

AI 요약

Context

단순 텍스트 추출 기반의 Chunking 방식에 따른 데이터 계층 구조 소실 및 Table 해석 오류 발생. Layout 정보가 배제된 Plain Text 입력으로 인한 LLM Hallucination 및 Retrieval 성능 저하 문제 직면.

구조적 문맥 보존을 위한 Ingestion 데이터 포맷을 Plain Text에서 Markdown으로 전환
Header, List, Table 등 문서 내 계층 구조를 명시적으로 표현하여 LLM의 컨텍스트 파악 능력 최적화
비용 효율성을 고려한 Hybrid Parsing 전략 수립을 통해 일반 문서는 Local Engine(Docling)으로 처리
시각적 복잡도가 높은 문서는 Vision-Language Model(Mistral OCR, LlamaParse)을 활용한 이미지 기반 분석 적용
레이아웃 인식을 통한 Multi-column 및 Nested Table 해석 오류 원천 차단
PyPDF 등 Legacy Library 배제를 통한 데이터 파이프라인 신뢰성 확보

실천 포인트

1. Ingestion 단계의 출력 포맷이 Markdown으로 표준화되어 있는지 확인

2. 문서의 복잡도에 따라 Local Engine과 VLM API를 분기 처리하는 하이브리드 파이프라인 설계

3. PyPDF, pdfminer 등 텍스트 기반 레거시 파서의 전면 교체 검토

4. Table 및 계층 구조 보존 여부를 통한 Retrieval 정밀도 검증 수행

태그