메타의 1,600개 언어용 Omnilingual MT

메타가 1,600개 언어 기계번역 모델(OMT-LLaMA)을 개발했으나, 저자원 언어 데이터 수집 및 언어 식별 정확도 문제가 여전한 상황

xguru2026년 3월 22일12분intermediate

AI 요약

Context

메타의 기존 번역 서비스는 저자원 언어(특히 크메르어 등 소수 언어)에서 품질이 크게 떨어지고 있었다. Common Crawl, FinePDFs, FineWeb 같은 기존 데이터셋은 품질이 낮고 처리가 거친데다, 가장 큰 병목은 텍스트 수집이 아니라 언어 식별 정확도임이 밝혀졌다. 논문 초록에서도 주어-동사 일치 오류 같은 기초적 문제가 노출되어 신뢰도 문제가 있었다.

Technical Solution

NLLB(No Language Left Behind) 프로젝트를 통해 200개 언어로 확장 후, 1,600개 언어 지원으로 범위 확대
OMT-LLaMA 모델 도입으로 기존 모델 대비 텍스트 생성 품질 향상
훈련 데이터 품질 개선 및 새로운 평가 도구 도입으로 다언어의 저주(언어 수 증가 시 품질 저하) 극복
BOUQuET 벤치마크 공개: 번역 품질을 범언어적으로 평가하기 위한 오픈 이니셔티브
리더보드와 평가 데이터셋 공개(모델 가중치는 미공개)

Key Takeaway

저자원 언어 번역 시스템 개발 시, 데이터 수집보다 언어 식별 정확도 개선에 먼저 투자해야 하며, 다언어 모델의 확장성 유지를 위해서는 훈련 데이터 품질 관리와 개방형 평가 기준이 필수적이다.

실천 포인트

다국어 기계번역 서비스를 구축하는 팀에서는 새로운 언어 추가 시 텍스트 수집 파이프라인만 구성하지 말고, 해당 언어 식별 정확도를 먼저 벤치마크 테스트해야 하며, 공개 데이터셋(Common Crawl 등)의 언어 분류 오류를 수정하는 데이터 정제 단계를 필수적으로 포함해야 한다.

태그

#Low-resource Languages #Language Identification #Machine Translation #Multilingual NLP #NLLB

원문 읽기