Hugging Face가 Vision-Language 모델의 5가지 사전학습 전략(Contrastive Learning, PrefixLM, Cross Attention, MLM/ITM, No Training)을 Transformers에 통합해 멀티모달 태스크 구현 단순화

A Dive into Vision-Language Models

2023년 2월 3일12분intermediate

AI 요약

Context

인간의 학습이 멀티모달 방식으로 진행되는 것처럼, 모델도 이미지와 텍스트 같은 여러 모달리티를 함께 처리할 필요가 있었다. 2021년 이후 Vision-Language 모델(CLIP 등)에 대한 관심이 증가했으나, 각 모델마다 다른 사전학습 전략과 구조를 채택해 엔지니어들이 각 접근 방식을 이해하고 비교하기 어려웠다.

Technical Solution

Contrastive Learning 도입: 이미지 인코더와 텍스트 인코더를 contrastive loss로 학습해 {image, caption} 쌍 데이터셋으로 조인트 특성 공간 정렬(CLIP, CLOOB, ALIGN, DeCLIP 등)
PrefixLM 전략 적용: 이미지를 언어 모델의 프리픽스로 사용해 이미지와 텍스트 임베딩을 조인트 학습
Cross Attention 기반 멀티모달 퓨징: 시각 정보를 언어 모델의 각 레이어에 cross-attention 메커니즘으로 통합
MLM/ITM 목표 활용: masked language modeling과 image-text matching 목표로 이미지 부분과 텍스트 정렬
No Training 접근: 별도의 사전학습된 vision 모델과 language 모델을 iterative optimization으로 연결
Transformers 라이브러리 통합: 5가지 사전학습 전략을 구현해 image captioning, text-guided image generation, visual question-answering 등 다양한 다운스트림 태스크 지원

Key Takeaway

Vision-Language 모델은 인코더 아키텍처(Transformer 기반), 손실 함수, 퓨징 전략이 밀결합되어 있으므로 특정 태스크에 맞는 사전학습 목표를 선택하는 것이 중요하다. Transformers를 통한 통합된 구현은 서로 다른 전략들을 일관된 인터페이스로 실험 가능하게 한다.

실천 포인트

Vision-Language 모델을 도입하는 엔지니어는 zero-shot image classification, image retrieval, visual question-answering 등의 태스크에 따라 Contrastive Learning(CLIP 스타일) 또는 PrefixLM 전략을 선택해야 한다. Hugging Face Transformers의 통합 구현을 사용하면 각 전략의 특성을 몇 줄의 코드로 비교 검증할 수 있고, 특히 대규모 {image, caption} 데이터셋이 있는 경우 Contrastive Learning이 zero-shot 일반화 성능이 우수하다.

태그

#Contrastive Learning #Multimodal Learning #Transformer #Vision Language Models #CLIP

원문 읽기