피드로 돌아가기
Welcome PaliGemma 2 – New vision language models by Google
Hugging Face BlogHugging Face Blog
AI/ML

Google이 PaliGemma 2를 출시하여 3B/10B/28B 3가지 크기와 224x224/448x448/896x896 3가지 입력 해상도 조합으로 선택 폭 확대

Welcome PaliGemma 2 – New vision language models by Google

2024년 12월 5일10intermediate

Context

기존 PaliGemma는 3B 단일 크기만 제공되어 다양한 사용 환경에서 품질과 효율성의 균형을 맞추기 어려웠다. 더 큰 모델 크기나 고해상도 입력이 필요한 작업에 대한 선택지가 제한적이었다.

Technical Solution

  • 비전 인코더는 SigLIP으로 유지하되 텍스트 디코더를 Gemma 2로 업그레이드: 기존 Gemma에서 최신 Gemma 2로 변경
  • 모델 크기를 3가지 확장: Gemma 2 기반 2B/9B/27B 언어모델에 컴팩트 이미지 인코더를 추가하여 3B/10B/28B PaliGemma 2 생성
  • 입력 해상도 지원 확대: 224x224에서 448x448, 896x896까지 3가지 해상도 옵션 제공
  • DOCCI 데이터셋으로 세밀한 조정: 3B와 10B 변형을 이미지-텍스트 캡션 쌍 데이터셋으로 사전학습하여 상세한 캡셀링 능력 강화
  • 양자화를 통한 배포 최적화: 4-bit (nf4) 및 8-bit 양자화 옵션 제공하여 메모리 사용량 감소
  • LoRA/QLoRA 기반 메모리 효율적 미세조정: 3개 A100 (80GB VRAM)에서 30분 내 VQAv2 절반 데이터셋으로 미세조정 가능

Impact

4-bit 양자화 사용 시 3B 모델의 TextVQA 정확도가 bfloat16 기준 60.04%에서 58.72%로 1.32%포인트 감소. 8-bit 양자화는 59.78% 정확도 유지. PaliGemma 2 3B DOCCI 미세조정 모델이 MiniGPT-4 7B 대비 Non-entailment Sentences 메트릭에서 34.3에서 28.4로 개선. PaliGemma 2 10B DOCCI는 NES 메트릭 20.3으로 InstructBLIP 7B의 42.6보다 우수.

Key Takeaway

다양한 모델 크기(3B/10B/28B)와 입력 해상도(224/448/896) 조합을 제공함으로써 사용자가 지연시간과 정확도 사이의 최적점을 선택할 수 있는 설계는 실제 운영 환경의 제약을 고려한 유연성을 확보한다. 양자화에도 불구하고 1~2%포인트 정도의 정확도 손실만 발생하므로, 메모리 제약이 있는 환경에서도 합리적인 트레이드오프로 배포 가능하다.


비전-언어 모델을 운영 환경에 배포하는 팀은 PaliGemma 2의 다중 크기/해상도 조합 전략을 참고하여, 응답 레이턴시 목표에 따라 3B(빠른 추론), 10B(균형), 28B(정확도 최우선) 중 선택하고, 메모리 제약이 있을 때는 4-bit 양자화를 먼저 검증해서 1~2%포인트 정확도 손실 범위 내에서 배포할 수 있다.

원문 읽기