Google이 SigLIP 이미지 인코더와 Gemma-2B 텍스트 디코더를 선형 어댑터로 결합한 PaliGemma 비전-언어 모델 family를 오픈소스로 공개

PaliGemma – Google's Cutting-Edge Open Vision Language Model

2024년 5월 14일12분intermediate

AI 요약

Context

기존의 비전-언어 모델들은 특정 작업에 최적화되어 있거나 다양한 해상도와 정밀도 옵션을 제공하지 못했다. 범용적이면서도 다운스트림 작업(캡셔닝, 세그멘테이션)에 쉽게 파인튜닝할 수 있는 오픈소스 모델의 필요성이 있었다.

Technical Solution

SigLIP-So400m 이미지 인코더와 Gemma-2B 텍스트 디코더를 선형 어댑터로 결합하여 PaliGemma 아키텍처 구성
3가지 모델 타입 제공: PT(사전학습) 체크포인트, Mix(다중 작업 파인튜닝) 체크포인트, FT(특정 작업 파인튜닝) 체크포인트
3가지 해상도(224x224, 448x448, 896x896)와 3가지 정밀도(bfloat16, float16, float32)로 제공
Task 조건화를 통해 동일 모델에서 다양한 능력 구현: "detect [entity]", "segment [entity]" 등의 프롬프트 접두사로 태스크 지정
위치 토큰(<loc[value]>) 기반의 정규화된 좌표 출력으로 바운딩 박스 탐지 및 세그멘테이션 수행
Hugging Face Hub에 transformers 통합 형태로 모든 체크포인트를 릴리스
QLoRA 파인튜닝 시 BitsAndBytes 4-bit 양자화(nf4 타입)와 LoRA 어댑터(r=8)를 적용하여 메모리 효율성 확보

Impact

Mix-224 모델에서 MMVP 정확도 46.00%, POPE 정확도 88.00%(random)/86.63%(popular)/85.67%(adversarial)을 기록했다.

Key Takeaway

단일 기본 모델에 Task 프롬프트 조건화와 선택적 파인튜닝을 결합하면 이미지 캡셔닝, VQA, 객체 탐지, 세그멘테이션, 문서 이해 등 다양한 비전-언어 작업을 하나의 모델 family로 지원할 수 있다. 해상도와 정밀도 옵션의 다층화는 메모리 제약과 정확도 사이의 트레이드오프를 개발자가 선택할 수 있게 한다.

실천 포인트

비전-언어 모델을 프로덕션에 적용하는 엔지니어는 PaliGemma의 Mix 체크포인트로 시작하여 특정 도메인 작업에서 QLoRA 파인튜닝(BitsAndBytes 4-bit 양자화 + LoRA rank=8)을 수행하면, 엔드 디바이스의 메모리 제약 속에서도 사용자 정의 작업 성능을 확보할 수 있다.

태그

#Fine-Tuning #Vision Language Model #BitsAndBytes #PaliGemma #LoRA

원문 읽기