Technology Innovation Institute(TII)가 Falcon 3 기반으로 아랍어 토크나이저 32,000개 확장 및 임베딩 초기화 전략 도입으로 동일 크기 모델 대비 성능 우위 달성

Falcon-Arabic: A Breakthrough in Arabic Language Models

2025년 5월 21일8분intermediate

AI 요약

Context

아랍어는 형태론적 복잡성, 표준 아랍어(MSA)와 지역 방언의 이중언어 특성, 광범위한 문화적 다양성으로 인해 LLM 개발이 저조했다. 기존 아랍어 LLM들은 영어 중심 모델 적응이나 처음부터 학습하는 방식으로 효율성과 성능에서 한계를 보였다.

Technical Solution

Falcon 3-7B 다국어 기반 모델 선택: 성능과 리소스 효율성 사이의 균형을 고려하여 기존 아랍어 지원 없는 모델을 적응 기반으로 채택
토크나이저 어휘 확장: 32,000개의 아랍어 특화 토큰을 토크나이저에 추가하여 언어 표현 능력 강화
텍스트 유사도 기반 임베딩 초기화: 신규 아랍어 토큰을 기존 어휘의 의미론적으로 관련된 임베딩에 매핑하여 사전 지식 상속 및 학습 가속화
다단계 커리큘럼 사전학습: 초기 단계에서 방언 포함 일반 지식 학습으로 모델 안정화, 후기 단계에서 수학·코드·추론에 집중
100% 네이티브 아랍어 데이터셋 사용: 기계 번역 콘텐츠 제외로 문화적 편향 최소화 및 언어 진정성 보존

Impact

Falcon-Arabic은 OALL v2 벤치마크에서 동일 크기 범주의 모든 기존 아랍어 LLM을 능가하며, 4배 크기의 모델들까지 초과 성능을 달성했다. Arabic MMLU, Exams, MadinahQA, Aratrust 주요 벤치마크에서 최고 성능을 기록했다. 32,000 토큰 컨텍스트 길이로 장문서 처리 및 RAG, 심화 콘텐츠 생성, 지식 집약적 작업 지원이 가능해졌다.

Key Takeaway

다국어 기반 모델을 특정 언어로 효율적으로 적응시키려면 토크나이저 확장과 임베딩 초기화 전략이 결정적이다. 텍스트 유사도 매핑을 통한 지식 상속은 학습 곡선을 가파르게 만들어 제한된 리소스에서도 경쟁력 있는 성능을 달성할 수 있다.

실천 포인트

다국어 LLM을 저자원 언어(underrepresented language)로 적응시킬 때, 단순히 토크나이저 어휘만 확장하지 말고 기존 임베딩 공간과의 의미론적 연결을 텍스트 유사도 기반으로 초기화하면 전혀 새로 학습하는 것 대비 수렴 속도와 최종 성능을 동시에 개선할 수 있다.

태그

#Transfer Learning #Embedding #Arabic #LLM #tokenizer

원문 읽기