피드로 돌아가기
Dev.toAI/ML
원문 읽기
3-Tier OCR 파이프라인 구축을 통한 인식 정확도 최대 96% 달성
AI-Powered Document OCR for Business: Moving Beyond Simple Text Extraction
AI 요약
Context
정형 데이터와 필기체가 혼재된 이탈리아 법률/재무 문서의 고정밀 추출 필요성 대두. 기존 Tesseract 기반의 단순 OCR로는 필기체 및 노후 문서의 복잡한 레이아웃 처리에 한계가 존재함.
Technical Solution
- 문서 유형별 최적 엔진을 매칭하는 3-Tier Routing 구조 설계
- Tier 1: 현대적 타이핑 문서 대상 Deskewing, Denoising, Thresholding 전처리를 거친 Tesseract 적용
- Tier 2: 필기체 및 훼손 문서 대상 문맥 이해 기반의 Pixtral Vision-capable 모델 활용
- Tier 3: 저신뢰도 결과물에 대한 최종 보루로 Gemini Vision Fallback 메커니즘 구축
- OCR 결과의 정규화와 비즈니스 로직 적용을 분리한 'OCR → LLM' 2단계 구조적 추출 방식 채택
- API Rate Limit 및 비용 최적화를 위한 Priority Queue 기반 동시성 제어(Max 3 Jobs) 구현
실천 포인트
- 문서 분류기(Classifier)를 최우선적으로 구축하여 불필요한 고비용 Vision 모델 호출 방지 - 이미지 전처리(Deskewing, Thresholding) 단계의 정밀도를 높여 기본 OCR 엔진 성능 극대화 - OCR 원문 추출과 구조적 데이터 필드 추출 단계를 분리하여 파이프라인의 안정성 확보