Hugging Face가 Idefics2라는 8B 파라미터 오픈소스 비전-언어 모델을 출시해 LLaVa-Next-34B, MM1-30B와 경쟁 수준의 성능을 달성

Introducing Idefics2: A Powerful 8B Vision-Language Model for the community

2024년 4월 15일8분intermediate

AI 요약

Context

Idefics1은 80B 파라미터로 매우 크고 폐쇄형 라이선스였으며, 고정 크기 이미지 리사이징과 제한된 OCR 능력을 가지고 있었다. 커뮤니티는 더 경량이면서도 높은 성능의 오픈소스 비전-언어 모델을 필요로 했다.

이미지 처리 방식을 고정 크기에서 네이티브 해상도(최대 980x980)와 종횡비 유지로 변경: NaViT 전략 도입
선택적 이미지 분할 기능 추가: SPHINX 및 LLaVa-NeXT 전략을 따라 매우 큰 해상도의 이미지를 세분화해 처리
아키텍처 단순화: Idefics1의 gated cross-attentions을 제거하고 vision encoder → Perceiver pooling → MLP modality projection 구조로 변경
OCR 능력 강화: 텍스트 필기 인식, 차트 및 문서 이해를 위한 전문 학습 데이터 통합
학습 데이터셋 공개: 50개의 수동 큐레이션 데이터셋을 멀티턴 대화 형식으로 정리한 'The Cauldron' 데이터셋 출시

경량 모델을 통해 대규모 모델 수준의 성능을 달성하려면 이미지 처리 파이프라인(해상도 유지, 동적 분할), 아키텍처 단순화, 그리고 도메인 특화 학습 데이터의 조합이 핵심이다. 오픈소스로 학습 데이터셋과 통일된 아키텍처를 공개하면 커뮤니티 기여를 가속화할 수 있다.

실천 포인트

비전-언어 모델 개발팀에서 고정 크기 이미지 리사이징 대신 NaViT 전략과 선택적 이미지 분할을 적용하면, 모델 크기를 1/10으로 줄이면서도 대규모 폐쇄형 모델과 유사한 벤치마크 성능을 달성할 수 있다.

태그