피드로 돌아가기
Docmatix - a huge dataset for Document Visual Question Answering
Hugging Face BlogHugging Face Blog
AI/ML

Microsoft 연구팀이 DocVQA 데이터셋을 2.4백만 개 이미지 및 9.5백만 개 Q/A 쌍으로 240배 확대하여 Florence-2 모델의 성능을 20% 향상

Docmatix - a huge dataset for Document Visual Question Answering

2024년 7월 18일8intermediate

Context

기존 Document Visual Question Answering(DocVQA) 데이터셋은 10,000개 이미지와 39,000개 Q/A 쌍 규모로 제한되어 있었다. 이로 인해 오픈소스 비전-언어 모델들이 폐쇄형 모델과의 성능 격차를 유지하고 있었다.

Technical Solution

  • PDFA 데이터셋의 2.1백만 개 PDF를 소스로 사용하여 2.4백만 개 이미지로 변환 (해상도 150dpi): 스케일 문제 해결
  • Phi-3-small 모델을 활용해 Q/A 쌍 자동 생성: 수동 레이블링 비용 제거
  • 생성된 Q/A 쌍 중 15% 필터링 (정규표현식으로 코드 감지 및 "unanswerable" 키워드 제거): 할루시네이션 제거
  • 프롬프트 최적화를 통해 페이지당 약 4개 Q/A 쌍 생성: 중복 최소화 및 상세도 확보
  • 처리된 이미지를 Hugging Face Hub에 업로드: 리소스 소비 큰 PDF-이미지 변환 작업 제거

Impact

  • Florence-2 모델이 DocVQA 기준 상대 성능 20% 향상 (60.1 → 71.4 ANSL)
  • 700M 파라미터 Florence-2가 8B 파라미터 Idefics2 대비 5% 성능 차 감소
  • 데이터셋 규모가 이전 DocVQA 대비 240배 증가 (39,000 Q/A → 9.5백만 Q/A)

Key Takeaway

대규모 자동 생성 데이터셋에 체계적인 필터링과 프롬프트 최적화를 결합하면 폐쇄형 모델 수준의 성능을 오픈소스 모델에서도 달성할 수 있다는 것을 보여준다.


문서 인식 AI 모델을 개발하는 팀에서 Docmatix와 같은 대규모 합성 데이터셋을 파인튜닝에 활용하면 주요 벤치마크에서 20% 이상의 성능 향상을 기대할 수 있으며, 특히 작은 모델 크기에서도 큰 모델 수준의 결과를 얻을 수 있다.

원문 읽기