피드로 돌아가기
Dev.toAI/ML
원문 읽기
AWS Textract 도입 후 정규식 기반 파싱의 한계와 30%의 낮은 정확도
When the Cleanup Code Becomes the Project
AI 요약
Context
Tesseract의 필기체 인식 불가 문제로 인해 AWS Textract 기반의 Cloud service 전환을 결정. 단순 텍스트 추출을 넘어 문서 내 타이틀, 재료 리스트, 지침 등 구조적 데이터 변환을 목표로 설정.
Technical Solution
- AWS Textract API를 통한 Raw text 추출 및 Confidence score 기반의 데이터 획득
- 정규 표현식(Regex) 기반의 Quantity-Unit-Item 구조 파싱 로직 구현
- 문서의 첫 번째 라인을 Title로, 매칭되지 않는 나머지 텍스트를 Instruction으로 분류하는 Heuristics 적용
- 6개의 설정 가능한 파라미터를 통한 전처리 프로세스 구축
- 복잡한 문서 구조 대응을 위해 200라인 이상의 정규식 및 예외 처리 분기 추가
실천 포인트
1. OCR 도입 시 단순 텍스트 정확도 외에 문서의 Layout 분석 능력을 우선 검토할 것
2. 정규식 기반의 Heuristics가 임계치 이상으로 늘어날 경우 시스템의 Fragility가 급증함을 인지할 것
3. 데이터의 다양성이 높을 때 Rule-based 파싱 대신 LLM의 구조화 추출(Structured Extraction) 검토