Cohere가 데이터 중재(Data Arbitrage), 다국어 선호도 학습, 안전 튜닝, 모델 병합을 결합해 Aya Expanse 8B/32B 모델을 개발해 다국어 성능에서 새로운 최고 수준 달성

A Deepdive into Aya Expanse: Advancing the Frontier of Multilinguality

2024년 10월 24일12분intermediate

AI 요약

Context

다국어 LLM 개발에서 단일 교사 모델에 대한 의존은 저자원 언어의 합성 데이터 생성을 제한하고 모델 붕괴를 초래한다. 또한 대부분의 선호도 학습 데이터셋이 영어 중심이고 다국어 데이터셋은 낮은 품질이며, 여러 언어를 동시에 최적화하면 특정 언어의 성능 향상이 다른 언어의 성능 저하를 야기한다.

Technical Solution

데이터 중재(Data Arbitrage): 언어 그룹별 모델 풀을 학습하고 내부 보상 모델(Reward Model)을 통해 각 프롬프트에서 최고 점수의 완성도를 선택해 다국어 합성 데이터 생성
다국어 선호도 학습: 고성능 다국어 LLM의 우수한 언어 내 완성도와 약한 모델이 생성한 번역 완성도를 대조해 다국어 선호도 데이터 쌍 구성
안전 튜닝: 다국어 모델의 안전성을 보장하기 위한 명시적 튜닝 적용
모델 병합: 가중 평균 방식을 사용해 학습된 모델들을 결합하며, 35B 규모에서의 병합 효과를 중점 적용

Impact

Aya Expanse 8B는 감독형 미세조정(SFT) 단계에서 다국어 중재를 통해 Gemma 2 9B 대비 승률 9.1% 향상
Aya Expanse 8B는 Gemma 2 9B, Llama 3.1 8B, Ministral 8B 대비 승률 60.4~70.6%
Aya Expanse 32B는 자신의 2배 크기인 Llama 3.1 70B, Mistral 8x22B, Gemma 2 27B를 일대일 비교에서 상회
모델 병합 시 35B 규모에서 8B 규모 대비 3배까지 더 큰 이득 관찰

Key Takeaway

다국어 모델 개발에서 단일 최적 모델 대신 다양한 모델 풀에서 언어별로 최적 출력을 선택하는 중재 기법이 저자원 언어의 합성 데이터 품질을 크게 향상시킨다. 또한 언어 간 간섭을 최소화하기 위해 언어 내 고품질 완성도와 번역 기반 저품질 완성도를 대조하는 선호도 학습이 전체 언어에서의 성능 향상을 가능하게 한다.

실천 포인트

다국어 LLM을 개발하는 팀에서 합성 데이터 생성 시 보상 모델 기반 중재 기법을 도입하면 특정 언어의 교사 모델 부재로 인한 저자원 언어의 데이터 품질 문제를 해결할 수 있다. 또한 선호도 학습 데이터 구성 시 각 언어별로 우수한 완성도(모국어 모델)와 저품질 완성도(번역)를 명시적으로 대조시키면 언어 간 성능 회귀를 방지하면서 전체 언어에서의 일관된 성능 향상을 달성할 수 있다.

태그

#Model Merging #Multilingual LLM #Synthetic Data #Preference Training #Data Arbitrage

원문 읽기