Hugging Face가 LayoutLMv3와 Donut 같은 멀티모달 모델 도입으로 Document AI 분류 정확도를 BERT 기반 89%에서 95%로 향상

Accelerating Document AI

2022년 11월 21일12분intermediate

AI 요약

Context

기업은 문서에 담긴 비정형 데이터(발송장, 송장, 양식, 보고서, 영수증)를 디지털 워크플로우로 활용할 수 없었다. OCR 후 BERT 모델만으로 분류하면 텍스트만 사용해 레이아웃과 시각적 정보를 무시하므로 정확도가 89% 수준에 그쳤다.

Technical Solution

OCR과 텍스트 추출 표준화: EasyOCR, PaddleOCR 같은 문서 레벨 OCR 모델과 CRAFT(텍스트 감지) + TrOCR(트랜스포머 기반 OCR) 조합 적용
멀티모달 트랜스포머 도입: 텍스트와 시각 정보를 함께 처리하는 LayoutLMv3와 Donut 모델 활용으로 레이아웃·구조 정보까지 반영
문서 레이아웃 분석 모델 통합: Mask R-CNN 백본 기반 LayoutLMv3와 DiT(Document Image Transformer)로 텍스트 세그먼트, 헤더, 테이블 등 구조적 요소 자동 식별
문서 파싱 아키텍처: LayoutLMv2/v3의 시각 피처 사전학습을 활용해 문서에서 키-값 쌍(예: 송장의 항목, 금액) 자동 추출
오픈소스 모델 기반 구축: Hugging Face Hub의 사전학습 모델을 미세조정(fine-tuning)으로 커스텀 솔루션 개발

Impact

문서 이미지 분류 정확도: BERT 기반 89% → DiT 순수 시각 모델 92% → LayoutLMv3/Donut 멀티모달 95% 달성
문서 레이아웃 분석: LayoutLMv3 최신 성능 0.951 mAP (PubLayNet 벤치마크 기준)

Key Takeaway

멀티모달 트랜스포머가 Document AI 성능의 핵심임을 증명했다. 텍스트만 처리하는 BERT 대비 레이아웃·시각 정보를 통합하면 분류·추출 정확도를 6~8포인트 향상시킬 수 있으며, 오픈소스 모델 기반 접근으로 상용 솔루션 없이도 엔터프라이즈 수준의 Document AI 구축이 가능하다.

실천 포인트

송장·송금·양식 처리를 자동화해야 하는 팀에서 OCR 후 BERT 텍스트 분류만 사용 중이라면, LayoutLMv3나 Donut으로 대체하면 정확도 6포인트(89% → 95%) 향상을 기대할 수 있다. Hugging Face Hub에서 사전학습 모델을 다운로드해 자사 문서 1,000~5,000장으로 미세조정하면 추가 비용 없이 2~4주 내 프로덕션 배포가 가능하다.

태그

#Open Source #LayoutLM #Document-AI #Multimodal Transformer #OCR

원문 읽기