Albumentations AI와 협업으로 문서 이미지의 텍스트와 이미지를 동시에 변환하는 TextImage Augmentation 파이프라인 개발

Introducing TextImage Augmentation for Document Images

2024년 8월 6일10분intermediate

AI 요약

Context

Vision Language Models를 문서 이미지 데이터셋으로 파인튜닝할 때 제한된 학습 데이터로 인해 정확한 텍스트 인식 능력을 확보하기 어렵다. 기존 이미지 변환 기법(리사이징, 블러링, 배경색 변경)은 텍스트 추출 정확도를 저하시키기 때문에 텍스트 무결성을 보존하면서 데이터를 증강할 기법이 필요했다.

Technical Solution

문서 이미지 내 무작위 라인 선택: hyperparameter fraction_range로 수정할 bounding box 영역 범위 제어
텍스트 증강 메서드 적용: Random Insertion, Deletion, Swap, Stopword Replacement를 선택적으로 텍스트에 적용
이미지 영역 처리: 원본 bounding box 크기를 기준으로 텍스트가 삽입된 이미지 영역 검은색으로 처리 후 inpainting 수행
폰트 크기 제어: font_size_fraction_range 파라미터로 bounding box 높이 대비 폰트 크기 범위 지정
메타데이터 반환: 수정된 텍스트와 bounding box를 학습 데이터로 추출 가능
합성 데이터 생성: 임의 이미지를 배경으로 완전히 새로운 텍스트 렌더링해 다양한 학습 샘플 생성
다른 변환과의 결합: Albumentations 라이브러리의 다른 이미지 변환 기법과 동시에 적용 가능

Key Takeaway

문서 이미지 처리 모델 학습에서 텍스트와 이미지를 동일한 증강 파이프라인 내에서 함께 변환하면 양쪽 모달리티 간의 상호작용을 학습 전 단계에서 보장할 수 있다.

실천 포인트

제한된 문서 이미지 데이터셋으로 Vision Language Model을 파인튜닝하는 상황에서 TextImage Augmentation을 적용하면 Random Insertion, Deletion, Swap, Stopword Replacement 같은 텍스트 변환을 이미지의 해당 영역 inpainting과 동시에 수행함으로써 의미론적으로 관련된 다양한 학습 샘플을 자동 생성할 수 있다.

태그

#Multimodal-ML #Vision Language Models #Albumentations #Document-Image-Processing #Data-Augmentation

원문 읽기