mmBERT가 1800개 이상 언어에서 3T+ 토큰 학습 및 3단계 점진적 언어 추가 전략으로 XLM-R을 첫 번째로 성능 개선

mmBERT: ModernBERT goes Multilingual

2025년 9월 9일7분intermediate

AI 요약

Context

기존 다국어 인코더 모델들은 XLM-R 이상의 성능 개선을 달성하지 못했으며, 저자원 언어 학습에서 효율성이 떨어지고 데이터 반복 문제가 있었다.

Gemma 2 토크나이저 도입: ModernBERT-base 아키텍처 유지하면서 다국어 텍스트 처리 능력 향상 (110M 비임베딩 파라미터)
3단계 훈련 방식 구현: 사전훈련 2.3T 토큰(60개 언어, 30% 마스크) → 중간훈련 600B 토큰(110개 언어, 15% 마스크) → 감쇠 단계 100B 토큰(1833개 언어, 5% 마스크)
역방향 마스크 비율 스케줄 적용: 훈련 단계별로 마스크율을 30% → 15% → 5%로 점진적 감소시켜 기초 표현 학습 후 세밀한 이해로 전환
온난화된 언어 학습 도입: 다국어 데이터 샘플링 온도를 τ=0.7 → 0.5 → 0.3으로 조정하여 고자원 언어 편향에서 균등 샘플링으로 전환
점진적 언어 추가 전략: 60개 → 110개 → 1833개 언어로 단계적 추가하여 저자원 언어 데이터 반복 회피
TIES 병합 기법 적용: 감쇠 단계에서 훈련한 3가지 변형 모델(영어 중심, 110개 언어, 전체 언어)을 통합하여 최종 모델 생성
다층 고품질 데이터 구성: DCLM(영어 고품질), FineWeb2(1800개 언어 광범위), FineWeb2-HQ(20개 고자원 언어 필터링)를 조합하고 StarCoder, ArXiv, Wikipedia 등 특화 코퍼스 통합
고자원 언어 비율 상향: 영어 비율을 최대 18%로 설정하여 기존 다국어 모델보다 높은 비중 할당

XLM-R 성능을 처음으로 초과했으며, 속도 개선을 달성했다. (구체적 수치는 아티클에 미제시)

다국어 모델 훈련에서 균등 데이터 분포로의 점진적 전환과 언어별 마스크율 조정이 저자원 언어 성능을 해치지 않으면서 전체 다국어 성능을 향상시키는 핵심 전략이다.

실천 포인트

다국어 기반 모델 개발 시 모든 언어를 동시에 훈련하기보다, 고자원 언어부터 시작해 저자원 언어를 단계적으로 추가하고, 각 단계에서 마스킹률과 데이터 샘플링 온도를 조정하면 저자원 언어 반복 문제를 피하면서 전체 성능을 개선할 수 있다.

태그