Hugging Face BlogHugging Face가 Vision Language Model의 아키텍처, 평가 방법론, 파인튜닝 프레임워크를 종합적으로 설명하여 멀티모달 모델 도입 가이드 제공Vision Language Models ExplainedAI/MLintermediate24 분 소요2024년 4월 11일
Hugging Face BlogKakao Brain이 공개 데이터셋 COYO-700M으로 학습한 ViT와 ALIGN 모델을 오픈소스 공개하여 Google의 폐쇄 데이터셋 모델과 동등한 성능 달성New ViT and ALIGN Models From Kakao BrainAI/MLintermediate34 분 소요2023년 3월 6일
Hugging Face BlogHugging Face가 Vision-Language 모델의 5가지 사전학습 전략(Contrastive Learning, PrefixLM, Cross Attention, MLM/ITM, No Training)을 Transformers에 통합해 멀티모달 태스크 구현 단순화A Dive into Vision-Language ModelsAI/MLintermediate53 분 소요2023년 2월 3일