피드로 돌아가기
PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend
Hugging Face BlogHugging Face Blog
AI/ML

Hugging Face Transformers Backend 도입을 통한 OCR 워크플로우 통합 유연성 확보

PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend

2026년 5월 18일4intermediate

Context

기존 PaddleOCR은 자체 엔진 중심의 추론 구조로 인해 PyTorch 기반의 Hugging Face 에코시스템과의 통합 비용이 높았음. 특히 RAG 및 Document AI 구축 시 모델 로딩과 배포 단계에서 서로 다른 인프라 스택으로 인한 통합 마찰 발생함.

Technical Solution

  • Inference-engine interface 추상화를 통한 Backend 선택권 부여 및 유연한 아키텍처 설계
  • engine 파라미터를 통한 transformers 백엔드 선택 및 engine_config 기반의 런타임 최적화 설정 구조 도입
  • 모델 레이어(PP-OCRv5, PaddleOCR-VL 1.5)와 추론 백엔드 레이어를 분리하여 모델 성능은 유지하며 실행 환경만 변경하는 전략 채택
  • dtype, device placement, attention implementation 등 하드웨어 특화 옵션을 engine_config로 전달하여 추론 최적화 달성
  • Application layer에서 내부 컴포넌트를 개별 호출할 필요 없이 PaddleOCR이 파이프라인을 관리하는 캡슐화 구조 유지

- Hugging Face 기반의 PyTorch 스택을 이미 사용 중인 경우 `engine=transformers` 설정을 통한 통합 비용 최소화 검토 - 최대 처리량(Throughput) 확보가 최우선인 프로덕션 환경에서는 기존 `paddle_static` 백엔드 사용 권장 - 하드웨어 가속기 최적화를 위해 `engine_config`에서 `bfloat16` 및 `sdpa(Scaled Dot Product Attention)` 적용 여부 확인

원문 읽기