피드로 돌아가기
Introducing Idefics2: A Powerful 8B Vision-Language Model for the community
Hugging Face BlogHugging Face Blog
AI/ML

Hugging Face가 Idefics2라는 8B 파라미터 오픈소스 비전-언어 모델을 출시해 LLaVa-Next-34B, MM1-30B와 경쟁 수준의 성능을 달성

Introducing Idefics2: A Powerful 8B Vision-Language Model for the community

2024년 4월 15일8intermediate

Context

Idefics1은 80B 파라미터로 매우 크고 폐쇄형 라이선스였으며, 고정 크기 이미지 리사이징과 제한된 OCR 능력을 가지고 있었다. 커뮤니티는 더 경량이면서도 높은 성능의 오픈소스 비전-언어 모델을 필요로 했다.

Technical Solution

  • 이미지 처리 방식을 고정 크기에서 네이티브 해상도(최대 980x980)와 종횡비 유지로 변경: NaViT 전략 도입
  • 선택적 이미지 분할 기능 추가: SPHINX 및 LLaVa-NeXT 전략을 따라 매우 큰 해상도의 이미지를 세분화해 처리
  • 아키텍처 단순화: Idefics1의 gated cross-attentions을 제거하고 vision encoder → Perceiver pooling → MLP modality projection 구조로 변경
  • OCR 능력 강화: 텍스트 필기 인식, 차트 및 문서 이해를 위한 전문 학습 데이터 통합
  • 학습 데이터셋 공개: 50개의 수동 큐레이션 데이터셋을 멀티턴 대화 형식으로 정리한 'The Cauldron' 데이터셋 출시

Impact

  • Idefics1(80B) 대비 10배 소형화된 8B 모델로 Visual Question Answering 벤치마크에서 경급 최고 성능 달성
  • MMMU 벤치마크에서 43.5(val)/37.9(test) 점수로 Gemini 1.0 Pro(47.9/-)에 거의 근접
  • MathVista 테스트에서 51.6점으로 LLaVa-NeXT-34B(46.5)를 초과
  • TextVQA에서 70.4점, DocVQA에서 74.0점(이미지 분할 적용 시)

Key Takeaway

경량 모델을 통해 대규모 모델 수준의 성능을 달성하려면 이미지 처리 파이프라인(해상도 유지, 동적 분할), 아키텍처 단순화, 그리고 도메인 특화 학습 데이터의 조합이 핵심이다. 오픈소스로 학습 데이터셋과 통일된 아키텍처를 공개하면 커뮤니티 기여를 가속화할 수 있다.


비전-언어 모델 개발팀에서 고정 크기 이미지 리사이징 대신 NaViT 전략과 선택적 이미지 분할을 적용하면, 모델 크기를 1/10으로 줄이면서도 대규모 폐쇄형 모델과 유사한 벤치마크 성능을 달성할 수 있다.

원문 읽기