피드로 돌아가기
Dev.toAI/ML
원문 읽기
Vision LLM과 PyMuPDF 결합을 통한 200페이지 이상 고정밀 PDF-Markdown 변환
I Built a Service That Actually Converts PDFs to Markdown Correctly
AI 요약
Context
단순 Text Extraction 방식의 레이아웃 파괴 및 수식/표 인식 불가 문제 분석. LLM 직접 입력 시 발생하는 Context Window 제한과 일관성 없는 출력 품질의 한계 확인.
Technical Solution
- Page PNG 렌더링 이미지를 Ground Truth로 활용한 Vision LLM 기반 구조 분석 설계
- PyMuPDF 추출 텍스트를 보조 정보로 제공하여 문자 인식 정확도를 높이는 하이브리드 파이프라인 구축
- 시각적 분석을 통한 2-Column 레이아웃의 논리적 흐름 유지 및 표/수식의 LaTeX 자동 변환 구현
- 문서 내 Figure 및 Graph를 개별 크롭하여 파일로 저장하고 Markdown 내 경로와 캡션을 매핑하는 자동화 로직 적용
- Gemini Flash Lite급 경량 모델에 최적화된 Prompt Tuning으로 비용 효율성과 고품질 출력 동시 달성
- 사용자 API Key 기반의 인프라 설계를 통해 대규모 문서 처리의 확장성 및 비용 제어권 확보
실천 포인트
1. 비정형 문서 파싱 시 텍스트 좌표값보다 페이지 렌더링 이미지 기반의 Vision LLM 활용 검토
2. OCR 정확도 향상을 위해 원본 텍스트 데이터를 LLM의 Hint로 제공하는 하이브리드 전략 적용
3. 수식 및 특수 기호의 시맨틱 유지를 위해 단순 텍스트가 아닌 LaTeX 포맷팅 강제화