mmBERT가 1800개 이상 언어에서 3T+ 토큰 학습 및 3단계 점진적 언어 추가 전략으로 XLM-R을 첫 번째로 성능 개선
mmBERT: ModernBERT goes Multilingual
mmBERT: ModernBERT goes Multilingual
Falcon 2: An 11B parameter pretrained language model and VLM, trained on over 5000B tokens and 11 languages