Microsoft의 Florence-2 비전-언어 모델을 DocVQA 데이터셋으로 파인튜닝해 VQA 성능을 0에서 57.0의 Levenshtein 유사도로 개선

Fine-tuning Florence-2 - Microsoft's Cutting-edge Vision Language Models

2024년 6월 24일10분intermediate

AI 요약

Context

Florence-2는 캡셔닝, 객체 감지, OCR 등 다양한 컴퓨터 비전 태스크를 기본 지원하지만, VQA(Visual Question Answering) 기능은 공개 모델에 포함되지 않았다. 사용자의 커스텀 도메인이나 특정 태스크에 맞춰 모델을 적응시키려면 파인튜닝이 필요했다.

Technical Solution

DaViT 비전 인코더와 BERT 텍스트 인코더를 활용한 시퀀스-투-시퀀스 구조로 이미지와 텍스트 입력을 텍스트 및 위치 토큰 출력으로 변환
제약된 환경에서의 파인튜닝: 비전 인코더 고정, 단일 A100 GPU에서 배치 크기 6 또는 T4에서 배치 크기 1로 학습
더 많은 리소스를 활용한 파인튜닝: 8개의 H100 GPU 클러스터에서 전체 모델 언프리징, 배치 크기 64로 70분 학습
학습률 1e-6으로 설정해 과적합 방지 (더 큰 학습률은 훈련 세트에 빠르게 과적합)
DocVQA 훈련 세트로 7 에포크 파인튜닝 수행

Impact

파인튜닝 전 DocVQA 검증 세트에서 Levenshtein 유사도 0에서 파인튜닝 후 57.0으로 개선
배치 크기 6, 단일 A100 환경에서도 의미 있는 성능 달성

Key Takeaway

Florence-2의 작은 모델 크기(0.2B, 0.7B)와 대규모 사전학습으로 인한 강력한 기초 위에 제한된 컴퓨팅 환경에서도 파인튜닝 가능하며, 저리소스 환경과 고리소스 환경 모두에서 커스텀 비전-언어 태스크 적응이 실현 가능하다.

실천 포인트

소규모 팀이나 엣지 디바이스 배포를 고려하는 환경에서 Florence-2를 커스텀 데이터셋으로 파인튜닝할 때, 비전 인코더를 고정하고 학습률을 1e-6으로 설정하며 단일 A100(배치 6) 또는 T4(배치 1) 환경에서 7 에포크 학습하면 0에서

7.0까지의 유사도 향상을 기대할 수 있다.

태그

#Florence-2 #Fine-Tuning #Vision Language Model #VQA #DocVQA

원문 읽기