피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Hugging Face Transformers Backend 도입을 통한 OCR 워크플로우 통합 유연성 확보
PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend
AI 요약
Context
기존 PaddleOCR은 자체 엔진 중심의 추론 구조로 인해 PyTorch 기반의 Hugging Face 에코시스템과의 통합 비용이 높았음. 특히 RAG 및 Document AI 구축 시 모델 로딩과 배포 단계에서 서로 다른 인프라 스택으로 인한 통합 마찰 발생함.
Technical Solution
- Inference-engine interface 추상화를 통한 Backend 선택권 부여 및 유연한 아키텍처 설계
engine파라미터를 통한transformers백엔드 선택 및engine_config기반의 런타임 최적화 설정 구조 도입- 모델 레이어(PP-OCRv5, PaddleOCR-VL 1.5)와 추론 백엔드 레이어를 분리하여 모델 성능은 유지하며 실행 환경만 변경하는 전략 채택
dtype,device placement,attention implementation등 하드웨어 특화 옵션을engine_config로 전달하여 추론 최적화 달성- Application layer에서 내부 컴포넌트를 개별 호출할 필요 없이 PaddleOCR이 파이프라인을 관리하는 캡슐화 구조 유지
실천 포인트
- Hugging Face 기반의 PyTorch 스택을 이미 사용 중인 경우 `engine=transformers` 설정을 통한 통합 비용 최소화 검토 - 최대 처리량(Throughput) 확보가 최우선인 프로덕션 환경에서는 기존 `paddle_static` 백엔드 사용 권장 - 하드웨어 가속기 최적화를 위해 `engine_config`에서 `bfloat16` 및 `sdpa(Scaled Dot Product Attention)` 적용 여부 확인