피드로 돌아가기
PP\-OCRv6 on Hugging Face: 50\-Language OCR from 1\.5M to 34\.5M Parameters
Hugging Face BlogHugging Face Blog
AI/ML

1.5M~34.5M 파라미터 규모별 최적화로 50개 언어 OCR 정밀도 향상

PP\-OCRv6 on Hugging Face: 50\-Language OCR from 1\.5M to 34\.5M Parameters

2026년 6월 22일5intermediate

Context

다양한 런타임 환경과 디바이스 제약으로 인해 단일 모델 기반의 OCR 적용에 한계 발생. 특히 실제 환경의 복잡한 배경과 다국어 텍스트 처리 시 정확도와 추론 속도 간의 Trade-off 해결 필요.

Technical Solution

  • PPLCNetV4를 통합 Backbone으로 채택하여 모델 계층 간 아키텍처 일관성 확보
  • RepLKFPN 기반의 Lightweight Large-Kernel FPN을 도입하여 다중 스케일 텍스트 검출 효율 최적화
  • EncoderWithLightSVTR 구조를 통한 Local Context 모델링과 Global Attention 결합으로 인식 품질 개선
  • Tiny(1.5M), Small(7.7M), Medium(34.5M)의 3단계 Tier 설계로 배포 환경별 리소스 최적화
  • Paddle Inference, ONNX Runtime, Transformers 등 멀티 백엔드 인터페이스를 통한 런타임 유연성 제공

Impact

  • PP-OCRv6_medium 기준 검출 Hmean 86.2%, 인식 정확도 83.2% 달성
  • PP-OCRv5_server 대비 텍스트 검출 +4.6%p, 텍스트 인식 +5.1%p 성능 향상
  • 최대 50개 언어 통합 지원으로 개별 언어별 모델 구축 비용 절감

Key Takeaway

특정 도메인의 고성능 모델 하나보다, 동일한 설계 철학을 공유하는 모델 패밀리(Model Family)를 구축하여 엣지부터 서버까지 확장 가능한 배포 전략 수립


- 추론 환경의 리소스 제약(Edge vs Server)에 따라

1.5M~

3

4.5M 파라미터 중 적절한 Tier 선택 - 다국어 지원 필요 시 개별 모델 구축 대신 50개 언어 통합 모델 검토 - 배포 파이프라인의 호환성을 위해 ONNX 또는 Transformers 백엔드 인터페이스 적용 여부 확인

원문 읽기