Hugging Face가 공개 데이터와 LLaMA v1, OpenCLIP만으로 Flamingo를 재현한 IDEFICS 모델 개발 및 공개

Introducing IDEFICS: An Open Reproduction of State-of-the-art Visual Langage Model

2023년 8월 22일7분intermediate

AI 요약

Context

Flamengo는 DeepMind의 최신 시각언어 모델이지만 공개되지 않아 학계와 산업계가 접근하지 못했다. GPT-4처럼 이미지-텍스트 혼합 입력을 처리할 수 있는 모델이 필수적이었으나 상용 모델에 대한 의존성이 높았다.

Technical Solution

기초 모델 선택: LLaMA v1과 OpenCLIP 두 가지 공개 모델을 조합하여 새로운 비전-텍스트 모델 구축
학습 데이터 구성: Wikipedia, Public Multimodal Dataset, LAION과 새로 생성한 OBELICS(1,150억 토큰, 141백만 개 문서, 3억 5,300만 개 이미지) 데이터셋 활용
모델 크기 제공: 80억 파라미터 버전과 800억 파라미터 버전 두 가지 제공
지시사항 튜닝 버전: idefics-80B-instruct와 idefics-9B-instruct로 대화형 사용 사례 최적화
투명성 강화: 데이터셋 시각화 도구 제공, 학습 과정의 기술적 통찰과 실패 사례 공개, 적대적 프롬프팅을 통한 해롭지 않음 평가 수행

Key Takeaway

공개 데이터와 공개 기초 모델만으로도 상용 최신 모델과 동등한 성능의 멀티모달 모델을 구현할 수 있으며, 이러한 투명성 있는 개발 방식이 오픈 AI 연구 생태계 확대의 핵심이다.

실천 포인트

멀티모달 AI 시스템을 개발하는 팀에서 Hugging Face의 IDEFICS 개발 사례처럼 공개 데이터셋(Wikipedia, LAION 등)과 공개 기초 모델(LLaMA, OpenCLIP)의 조합을 활용하면 규모 있는 상용 모델 대비 경쟁력 있는 비전-텍스트 모델을 자체 구현할 수 있고, 이 과정에서 학습 데이터셋 시각화 도구 공개와 적대적 프롬프팅 기반 평가를 거쳐야 커뮤니티 신뢰도를 확보할 수 있다.

태그

#Vision Language Model #Flamingo #Multimodal AI #OpenCLIP #Llama

원문 읽기