Kreuzberg가 Docling의 레이아웃 모델을 Rust 네이티브 파이프라인에 통합해 처리 속도 2.8배 향상 달성

Document Structure Extraction with Kreuzberg

TI2026년 3월 31일8분advanced

AI 요약

Context

PDF에서 구조화된 데이터를 추출하는 것은 AI 인프라에서 가장 어려운 문제 중 하나이다. 기존 도구는 텍스트 덤프만 제공한다. Docling은 17가지 문서 요소 유형을 분류하는 RT-DETR v2 레이아웃 모델로 문제를 해결했다. 그러나 Python 기반이라 대규모 프로덕션 환경에서 순차 처리와 메모리 스케일링에 한계가 있다.

Technical Solution

RT-DETR v2 모델 → ONNX Runtime으로 실행해 Python 의존성 제거
페이지 배치 처리 → Rayon 워커로 병렬 처리 구현
PDFium의 문자 수준 API → 네이티브 텍스트 추출로 손실 없는 텍스트 신뢰도 확보
구조 트리 → 작성자 의도 복원 및 레이아웃 모델 예측을 분류 오버라이드로 활용

Impact

Docling 대비 처리 속도 2.8배 향상, 메모리 사용량 대폭 감소, Docker 이미지 크기 1에서 1.3GB로 제한

Key Takeaway

레이아웃 모델의 지능과 Rust 실행 엔진의 효율성을 분리 설계하면 품질 저하 없이 성능을 극대화할 수 있다

실천 포인트

다국어 백엔드 환경에서 PDF 구조화 추출 파이프라인 구축 시 ONNX Runtime 기반 레이아웃 모델과 네이티브 텍스트 추출 파이프라인을 결합하면 GPU 없이도 CPU 인퍼런스로 프로덕션 워크로드 처리 가능

태그

#Kreuzberg #PDFium #RAG Pipeline #Docling #ONNX Runtime

원문 읽기