피드로 돌아가기
Introducing TextImage Augmentation for Document Images
Hugging Face BlogHugging Face Blog
AI/ML

Albumentations AI와 협업으로 문서 이미지의 텍스트와 이미지를 동시에 변환하는 TextImage Augmentation 파이프라인 개발

Introducing TextImage Augmentation for Document Images

2024년 8월 6일10intermediate

Context

Vision Language Models를 문서 이미지 데이터셋으로 파인튜닝할 때 제한된 학습 데이터로 인해 정확한 텍스트 인식 능력을 확보하기 어렵다. 기존 이미지 변환 기법(리사이징, 블러링, 배경색 변경)은 텍스트 추출 정확도를 저하시키기 때문에 텍스트 무결성을 보존하면서 데이터를 증강할 기법이 필요했다.

Technical Solution

  • 문서 이미지 내 무작위 라인 선택: hyperparameter fraction_range로 수정할 bounding box 영역 범위 제어
  • 텍스트 증강 메서드 적용: Random Insertion, Deletion, Swap, Stopword Replacement를 선택적으로 텍스트에 적용
  • 이미지 영역 처리: 원본 bounding box 크기를 기준으로 텍스트가 삽입된 이미지 영역 검은색으로 처리 후 inpainting 수행
  • 폰트 크기 제어: font_size_fraction_range 파라미터로 bounding box 높이 대비 폰트 크기 범위 지정
  • 메타데이터 반환: 수정된 텍스트와 bounding box를 학습 데이터로 추출 가능
  • 합성 데이터 생성: 임의 이미지를 배경으로 완전히 새로운 텍스트 렌더링해 다양한 학습 샘플 생성
  • 다른 변환과의 결합: Albumentations 라이브러리의 다른 이미지 변환 기법과 동시에 적용 가능

Key Takeaway

문서 이미지 처리 모델 학습에서 텍스트와 이미지를 동일한 증강 파이프라인 내에서 함께 변환하면 양쪽 모달리티 간의 상호작용을 학습 전 단계에서 보장할 수 있다.


제한된 문서 이미지 데이터셋으로 Vision Language Model을 파인튜닝하는 상황에서 TextImage Augmentation을 적용하면 Random Insertion, Deletion, Swap, Stopword Replacement 같은 텍스트 변환을 이미지의 해당 영역 inpainting과 동시에 수행함으로써 의미론적으로 관련된 다양한 학습 샘플을 자동 생성할 수 있다.

원문 읽기