피드로 돌아가기
Building a Fast Multilingual OCR Model with Synthetic Data
Hugging Face BlogHugging Face Blog
AI/ML

Synthetic Data 기반 Nemotron OCR v2, A100 단일 GPU에서 34.7 pages/s 달성

Building a Fast Multilingual OCR Model with Synthetic Data

2026년 4월 17일10advanced

Context

Nemotron OCR v1의 제한적인 855개 Character Set과 학습 데이터 부족으로 인한 다국어 인식 성능 저하 발생. 단순한 Character Set 확장은 실제 데이터 학습 없이는 NED 점수 개선에 한계가 있는 Data Bottleneck 상황 직면.

Technical Solution

  • mOSCAR 기반의 다국어 Web Corpus를 활용하여 실제 언어 분포를 반영한 Source Text 확보
  • SynthDoG를 확장하여 Word, Line, Paragraph 레벨의 Pixel-precise Bounding Box와 Reading Order Relation Graph를 생성하는 Synthetic Data Pipeline 구축
  • 1,200만 장의 Synthetic Image를 생성하여 레이아웃, 폰트, 배경의 Randomization을 통한 모델의 Invariance 강화
  • Shared Detection Backbone 설계를 통한 Recognizer와 Relational Model의 Feature 재사용으로 중복 연산 제거
  • RegNetY에서 RegNetX로의 Backbone 교체를 통한 추론 속도 최적화
  • 14,244개의 Token Vocabulary를 갖춘 Transformer 기반 Recognizer 적용으로 다국어 대응력 확보

Impact

  • 비영어권 언어 NED 점수를 0.56~0.92에서 0.035~0.069 수준으로 획기적 개선
  • A100 GPU 단일 장비 기준 34.7 pages/second의 처리 속도를 기록하며 PaddleOCR v5 대비 약 28배 빠른 성능 구현

Key Takeaway

모델 아키텍처의 수정보다 고품질의 Label Purity를 보장하는 Synthetic Data 파이프라인 구축이 다국어 모델 성능의 결정적 변수임을 입증


- 데이터 수집 비용이 높은 도메인에서 Synthetic Data Generation을 통한 Label Purity 확보 검토 - 모델 성능 병목이 Architecture인지 Data Distribution인지 검증하기 위한 Character Set 확장 실험 선행 - 추론 속도 향상을 위해 서로 다른 태스크(Detection, Recognition) 간 Feature Map을 공유하는 Shared Backbone 설계 적용

원문 읽기