피드로 돌아가기
Dev.toAI/ML
원문 읽기
Tesseract와 VLM 하이브리드 라우팅으로 비용 최적화 및 OCR 정확도 개선
Vision Models for OCR: When They Beat Tesseract and When They Don't
AI 요약
Context
열화된 영수증 데이터 처리 시 Tesseract의 낮은 정확도(약 60%)로 인한 수동 검토 비용 발생. 모든 페이지를 VLM으로 처리할 경우 발생하는 과도한 API 비용과 Tesseract 단독 사용 시의 낮은 신뢰도 사이의 Trade-off 존재.
Technical Solution
- Tesseract를 Primary Engine으로 배치하여 깨끗한 디지털 텍스트의 저비용/고속 처리 수행
- Word-level Confidence Score와 최소 텍스트 길이(MIN_CHARS)를 기준으로 한 Fallback Routing 로직 설계
- Confidence Floor(70%) 미만 또는 텍스트 부족 판정 시에만 VLM(Claude Sonnet 4.5 등)으로 요청을 전달하는 계층적 구조 채택
- VLM의 Layout Reasoning 능력을 활용해 저대조도, 필기체, 복잡한 표 구조의 데이터 복원력 확보
- 단순 전사(Transcription)를 넘어 Schema 기반의 Structured JSON 추출을 통한 데이터 가공 단계 통합
실천 포인트
1. 워크로드의 Heterogeneous 특성 분석 후 Routing 임계값(Confidence Threshold) 설정
2. API 비용 모델 기반의 Cost-per-page 시뮬레이션을 통한 최적의 Fallback 지점 산출
3. VLM 적용 시 요약이나 의역을 방지하는 정밀한 Prompt Engineering 적용 여부 검토
4. 월 1,000만 페이지 이상의 대규모 트래픽 발생 시 PaddleOCR-VL 등 Self-hosted 모델로의 전환 검토