Microsoft 연구팀이 DocVQA 데이터셋을 2.4백만 개 이미지 및 9.5백만 개 Q/A 쌍으로 240배 확대하여 Florence-2 모델의 성능을 20% 향상

Docmatix - a huge dataset for Document Visual Question Answering

2024년 7월 18일8분intermediate

AI 요약

Context

기존 Document Visual Question Answering(DocVQA) 데이터셋은 10,000개 이미지와 39,000개 Q/A 쌍 규모로 제한되어 있었다. 이로 인해 오픈소스 비전-언어 모델들이 폐쇄형 모델과의 성능 격차를 유지하고 있었다.

대규모 자동 생성 데이터셋에 체계적인 필터링과 프롬프트 최적화를 결합하면 폐쇄형 모델 수준의 성능을 오픈소스 모델에서도 달성할 수 있다는 것을 보여준다.

실천 포인트

문서 인식 AI 모델을 개발하는 팀에서 Docmatix와 같은 대규모 합성 데이터셋을 파인튜닝에 활용하면 주요 벤치마크에서 20% 이상의 성능 향상을 기대할 수 있으며, 특히 작은 모델 크기에서도 큰 모델 수준의 결과를 얻을 수 있다.

태그