Kakao Brain이 공개 데이터셋 COYO-700M으로 학습한 ViT와 ALIGN 모델을 오픈소스 공개하여 Google의 폐쇄 데이터셋 모델과 동등한 성능 달성

New ViT and ALIGN Models From Kakao Brain

2023년 3월 6일9분intermediate

AI 요약

Context

Google이 공개한 ViT와 ALIGN 모델은 각각 3억 개, 18억 개의 이미지 쌍으로 학습했지만 학습 데이터셋이 공개되지 않아 재현 불가능했다. 연구자들은 모델 재현 및 투명성을 위해 공개된 학습 데이터가 필요했다.

Technical Solution

Vision Transformer(ViT) 모델을 COYO-Labeled-300M 공개 데이터셋으로 재학습: Google의 JFT-300M 대신 공개 데이터셋 사용
ALIGN 비전-언어 모델을 COYO-700M 이미지-텍스트 쌍 데이터셋으로 학습: Google의 18억 쌍 대신 7억 쌍 사용
COYO 데이터셋에 메타데이터 추가: 모든 쌍에 미적 점수, 워터마크 점수, 얼굴 인식 데이터 포함하여 세밀한 제어 가능
LAION-2B보다 필터링 최소화: CLIP 유사도 점수를 메타데이터로 제공하되 임계값 필터링 제외
Hugging Face Hub에서 모델과 학습 코드를 완전 공개: 재현성 및 오픈 사이언스 보장

Impact

Kakao Brain의 ALIGN-B7-Base는 Google 모델보다 2.5배 적은 학습 데이터(7억 vs 18억 쌍)로 Image KNN 분류에서 동등한 성능을 달성했고, MS-COCO 이미지-텍스트 검색 작업에서 더 우수한 성능을 기록했다. ViT-L/16은 ImageNet 및 ImageNet-ReaL 평가에서 384, 512 해상도에서 Google 모델과 유사한 성능을 달성했다.

Key Takeaway

공개 데이터셋으로 학습한 모델이 폐쇄 데이터셋 기반 모델과 동등 이상의 성능을 달성할 수 있으며, 투명한 재현 가능성과 풍부한 메타데이터가 연구 커뮤니티에 더 큰 가치를 제공할 수 있다.

실천 포인트

시각-언어 모델 개발팀에서 공개 데이터셋 기반 재학습을 통해 폐쇄 모델의 성능을 재현할 수 있으며, Hugging Face Transformers의 zero-shot-image-classification 파이프라인을 3줄의 코드로 활용하여 자유로운 텍스트 레이블을 사용한 이미지 분류를 즉시 구현할 수 있다.

태그

#Multimodal Learning #Vision Transformer #Open Dataset #ALIGN

원문 읽기