Salesforce Research가 Q-Former를 도입해 동결된 비전 인코더와 LLM을 연결함으로써 멀티모달 사전학습 비용을 대폭 감소시킨 BLIP-2 모델 개발

Zero-shot image-to-text generation with BLIP-2

2023년 2월 15일9분intermediate

AI 요약

Context

비전과 언어 모델의 사전학습 비용이 급증하고 있으며, 양쪽 모달리티를 모두 효율적으로 통합하는 것이 기술적 병목이다. 기존 end-to-end 멀티모달 사전학습 방식은 전체 아키텍처를 함께 학습해야 하므로 리소스 소비가 매우 크다.

Technical Solution

Q-Former 아키텍처 도입: 동결된 ViT 비전 인코더와 동결된 LLM(OPT, Flan T5) 사이에 가벼운 Querying Transformer를 삽입하여 모달리티 간 정보 전달 처리
선택적 학습 전략: Q-Former만 학습 가능하게 유지하고 비전 인코더와 언어 모델은 동결하여 학습 파라미터 수 감소
2단계 사전학습 방식: 첫 단계에서 이미지-텍스트 대조 손실, 이미지 기반 텍스트 생성, 이미지-텍스트 매칭 손실을 적용하고, 두 번째 단계에서 시각 정보를 LLM의 입력 프리픽스로 사용
모듈식 조합 지원: 임의의 비전 백본과 임의의 LLM을 조합할 수 있도록 설계하여 향후 각 분야의 최신 모델 활용 가능
제로샷 멀티태스크 지원: 이미지 캡셔닝, 비주얼 질답, 채팅 기반 프롬핑 등 여러 이미지-텍스트 작업을 동일한 모델로 수행

Key Takeaway

동결된 사전학습 모델 간의 연결 계층을 최소한으로 유지하는 설계 원칙을 통해 멀티모달 통합의 계산 비용을 극적으로 줄일 수 있으며, 이는 개별 모달리티의 최신 모델 발전을 독립적으로 활용하는 확장성을 제공한다.

실천 포인트

멀티모달 작업을 구현해야 하는 엔지니어들은 BLIP-2처럼 사전학습된 단일 모달리티 모델들을 동결하고 경량의 어댑터 레이어(Q-Former 같은 트랜스포머)만 학습하는 접근 방식을 채택하면, 전체 모델을 end-to-end로 학습할 때 대비 학습 파라미터와 사전학습 시간을 대폭 감소시킬 수 있으며 동시에 개별 모달리티의 최신 모델을 쉽게 교체할 수 있다.

태그

#Q-Former #Vision-Language #BLIP-2 #MultiModal #zero-shot

원문 읽기