TII가 11B 파라미터 기반의 경량 LLM과 VLM을 5000B 토큰으로 학습하여 Falcon-40B의 1/4 크기에서 동등한 성능 달성

Falcon 2: An 11B parameter pretrained language model and VLM, trained on over 5000B tokens and 11 languages

2024년 5월 24일12분intermediate

AI 요약

Context

이전 Falcon 시리즈(Falcon-40B, Falcon-180B)는 대규모 파라미터로 고성능을 제공했으나 추론 비용이 높았다. 오픈소스 커뮤니티에서 더 경량화된 모델과 멀티모달 기능을 갖춘 모델에 대한 수요가 있었다.

Technical Solution

컨텍스트 길이를 4단계로 증가: 2048 → 4096 → 8192 토큰 단계적 학습 (Stage 1~4에 걸쳐 총 5500B 토큰 학습)
RefinedWeb 데이터셋을 기반으로 11개 언어(영어 주력, 스페인어/프랑스어/독일어 등 10개 추가 언어)에 대한 고품질 필터링 및 중복 제거 데이터 사용
1024개 A100 40GB GPU로 3D 병렬화(TP=8, PP=1, DP=128) + ZeRO + Flash-Attention 2 조합으로 학습
Vision-Language Model(VLM) 구성: 558K 이미지-캡션 쌍으로 멀티모달 프로젝터만 학습 후, 1.2M 이미지-텍스트 지시 데이터로 프로젝터와 LLM 가중치 동시 파인튜닝
모델 아키텍처: Transformer 60개 블록, 32개 Query Head, 8개 Key/Value Head, Head Dimension 128, Parallel Attention 활성화, MLP Upscale Factor 4

Impact

성능: Falcon2-11B가 Llama3-8B(3배 많은 데이터로 학습)보다 우수하고 Mistral-7B와 경쟁 수준의 OpenLLM Leaderboard 평균 점수 64.28점 달성
VLM 평가: Falcon2-11B VLM의 멀티모달 벤치마크(MME, GQA, SQA, POPE, VQAv2, TextVQA, MM-Bench, SEED-IMG) 평균점수 74.4점으로 LLaVA-1.6(Vicuna-13B) 73.8점 초과
모델 크기: Falcon-40B 대비 1/4 크기(11B vs 40B)에서 동등 수준 성능

Key Takeaway

단계적 컨텍스트 길이 확장과 고품질 데이터 선별을 통해 경량 모델도 대규모 모델 수준의 성능을 달성할 수 있으며, 멀티모달 기능 추가 시 프로젝터-기반 접근방식으로 효율적인 파인튜닝이 가능하다.

실천 포인트

대규모 언어모델을 개발하는 엔지니어 팀에서 Stage 1(기본 길이) → Stage 2, 3(점진적 확장) → Stage 4(고품질 데이터)의 4단계 학습 전략을 도입하면 컨텍스트 길이 확장으로 인한 불안정성 없이 최종 8192 토큰 길이 모델을 안정적으로 훈련할 수 있다.

태그

#Model optimization #Vision Language Model #Training-Strategy #LLM

원문 읽기