피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Microsoft의 Florence-2 비전-언어 모델을 DocVQA 데이터셋으로 파인튜닝해 VQA 성능을 0에서 57.0의 Levenshtein 유사도로 개선
Fine-tuning Florence-2 - Microsoft's Cutting-edge Vision Language Models
AI 요약
Context
Florence-2는 캡셔닝, 객체 감지, OCR 등 다양한 컴퓨터 비전 태스크를 기본 지원하지만, VQA(Visual Question Answering) 기능은 공개 모델에 포함되지 않았다. 사용자의 커스텀 도메인이나 특정 태스크에 맞춰 모델을 적응시키려면 파인튜닝이 필요했다.
Technical Solution
- DaViT 비전 인코더와 BERT 텍스트 인코더를 활용한 시퀀스-투-시퀀스 구조로 이미지와 텍스트 입력을 텍스트 및 위치 토큰 출력으로 변환
- 제약된 환경에서의 파인튜닝: 비전 인코더 고정, 단일 A100 GPU에서 배치 크기 6 또는 T4에서 배치 크기 1로 학습
- 더 많은 리소스를 활용한 파인튜닝: 8개의 H100 GPU 클러스터에서 전체 모델 언프리징, 배치 크기 64로 70분 학습
- 학습률 1e-6으로 설정해 과적합 방지 (더 큰 학습률은 훈련 세트에 빠르게 과적합)
- DocVQA 훈련 세트로 7 에포크 파인튜닝 수행
Impact
- 파인튜닝 전 DocVQA 검증 세트에서 Levenshtein 유사도 0에서 파인튜닝 후 57.0으로 개선
- 배치 크기 6, 단일 A100 환경에서도 의미 있는 성능 달성
Key Takeaway
Florence-2의 작은 모델 크기(0.2B, 0.7B)와 대규모 사전학습으로 인한 강력한 기초 위에 제한된 컴퓨팅 환경에서도 파인튜닝 가능하며, 저리소스 환경과 고리소스 환경 모두에서 커스텀 비전-언어 태스크 적응이 실현 가능하다.
실천 포인트
소규모 팀이나 엣지 디바이스 배포를 고려하는 환경에서 Florence-2를 커스텀 데이터셋으로 파인튜닝할 때, 비전 인코더를 고정하고 학습률을 1e-6으로 설정하며 단일 A100(배치 6) 또는 T4(배치 1) 환경에서 7 에포크 학습하면 0에서 57.0까지의 유사도 향상을 기대할 수 있다.