피드로 돌아가기
When the Cleanup Code Becomes the Project
Dev.toDev.to
AI/ML

AWS Textract 도입 후 정규식 기반 파싱의 한계와 30%의 낮은 정확도

When the Cleanup Code Becomes the Project

Andrew Judd2026년 5월 22일4intermediate

Context

Tesseract의 필기체 인식 불가 문제로 인해 AWS Textract 기반의 Cloud service 전환을 결정. 단순 텍스트 추출을 넘어 문서 내 타이틀, 재료 리스트, 지침 등 구조적 데이터 변환을 목표로 설정.

Technical Solution

  • AWS Textract API를 통한 Raw text 추출 및 Confidence score 기반의 데이터 획득
  • 정규 표현식(Regex) 기반의 Quantity-Unit-Item 구조 파싱 로직 구현
  • 문서의 첫 번째 라인을 Title로, 매칭되지 않는 나머지 텍스트를 Instruction으로 분류하는 Heuristics 적용
  • 6개의 설정 가능한 파라미터를 통한 전처리 프로세스 구축
  • 복잡한 문서 구조 대응을 위해 200라인 이상의 정규식 및 예외 처리 분기 추가

1. OCR 도입 시 단순 텍스트 정확도 외에 문서의 Layout 분석 능력을 우선 검토할 것

2. 정규식 기반의 Heuristics가 임계치 이상으로 늘어날 경우 시스템의 Fragility가 급증함을 인지할 것

3. 데이터의 다양성이 높을 때 Rule-based 파싱 대신 LLM의 구조화 추출(Structured Extraction) 검토

원문 읽기