TNG가 olmOCR-7B-0225-preview 모델을 파인튜닝하여 문서 헤더/푸터 정보 누락 문제 해결 및 업무 문서 처리 자동화 지원

Finetuning olmOCR to be a faithful OCR-Engine

2025년 4월 22일7분intermediate

AI 요약

Context

원본 olmOCR 모델은 LLM 훈련 데이터 생성을 목표로 설계되어 헤더, 푸터 등 부가 정보를 의도적으로 제외한다. 이로 인해 송장, 인보이스 등 실무 문서에서 핵심 정보가 누락되는 문제가 발생했다. 기존 파이프라인 기반 OCR 엔진들은 다중 머신러닝 컴포넌트 체인 구조로 인해 문서 논리적 읽기 순서(선형화) 처리에 어려움을 겪었다.

Technical Solution

Qwen2.5-VL-72B-Instruct를 사용하여 헤더/푸터 정보를 포함한 8,000개 문서 데이터셋 생성
공개 olmOCR 훈련 파이프라인 기반으로 8xH100 Nvidia 노드에서 4 gradient accumulation steps 적용하여 2.5 에포크 훈련 수행
olmOCR-mix-0225 평가 데이터셋을 커스터마이징하여 헤더/푸터 정보 포함한 평가 척도 구성
원본 모델의 document anchoring 프롬프팅 전략(raw text blocks와 위치 정보 추출) 유지하여 호환성 보장
파인튜닝된 모델이 헤더/푸터 전체 정보 추출과 동시에 단순 테이블 파싱 능력 유지

Key Takeaway

End-to-end Vision Language Model 기반 OCR 시스템은 전통적 파이프라인 방식보다 문서 선형화 처리에 우수하며, 특정 비즈니스 요구사항(헤더/푸터 정보 포함)에 맞춘 파인튜닝으로 실무 문서 처리 정확도를 향상시킬 수 있다.

실천 포인트

문서 자동화 처리가 필요한 조직에서 Vision Language Model 기반 OCR를 도입할 때, 단순히 사전훈련 모델을 사용하지 말고 실제 비즈니스 문서에서 요구되는 정보 영역(헤더, 푸터, 특정 필드)을 파악하여 소규모 데이터셋(8,000개 수준)으로 파인튜닝하면 업무 맞춤형 추출 정확도를 달성할 수 있다.

태그

#Fine-Tuning #Vision Language Models #olmOCR #Document Processing #OCR

원문 읽기