Google이 PaliGemma 2 Mix 모델을 공개해 3B/10B/28B 크기와 224x224/448x448/896x896 해상도 조합으로 OCR, 캡셔닝, 객체 감지 등 다중 비전-언어 작업 수행

PaliGemma 2 Mix - New Instruction Vision Language Models by Google

2025년 2월 19일12분intermediate

AI 요약

Context

PaliGemma 2 사전학습(PT) 모델은 다운스트림 태스크 전이 학습을 위해 설계되었으나, 실제 세부 작업별 성능 지표가 부재했다. 실무 개발자들은 미세조정 후 예상 성능을 사전에 파악할 수 없었다.

Technical Solution

PaliGemma 2 Mix 모델 도입: 사전학습 체크포인트를 OCR, 장문/단문 캡셔닝, VQA, 문서 이해, 객체 감지, 이미지 분할 등 다중 비전-언어 작업으로 미세조정
3가지 모델 크기 제공: 3B, 10B, 28B 파라미터 버전으로 성능-지연시간 트레이드오프 옵션 제공
3가지 해상도 변형: 224x224, 448x448, 896x896으로 이미지 입력 요구사항별 선택 가능
태스크 프리픽스 방식 개선: 이전 "caption {lang}", "ocr" 형태에서 개방형 프롬프트 방식으로 전환해 더 높은 성능 달성
객체 감지/분할 태스크용 위치 프리픽스 유지: "detect {object}" 및 "segment {object}" 프롬프트로 바운딩 박스 및 세그멘테이션 맵 출력

Impact

아티클에 정량적 성능 수치가 명시되지 않음.

Key Takeaway

Mix 모델 공개를 통해 개발자는 미세조정 전 다양한 크기와 해상도 조합에서 실제 작업 성능을 검증한 후 프로덕션 배포를 결정할 수 있으므로, 사전학습-미세조정 워크플로우의 초기 의사결정 비용을 대폭 절감할 수 있다.

실천 포인트

비전-언어 모델 기반 응용을 개발하는 팀에서 PaliGemma 2 Mix의 3가지 크기와 해상도 변형을 벤치마크해 자신의 작업 유형(OCR, 캡셔닝, VQA, 객체 감지)에 가장 적합한 조합을 선정하면, 사전학습 체크포인트 미세조정 전 예상 성능을 실제 데이터로 검증할 수 있어 모델 선택 오류를 방지할 수 있다.

태그

#Vision Language Model #PaliGemma #Multi-task Learning

원문 읽기