피드로 돌아가기
GeekNewsAI/ML
원문 읽기
메타의 1,600개 언어용 Omnilingual MT
메타가 1,600개 언어 기계번역 모델(OMT-LLaMA)을 개발했으나, 저자원 언어 데이터 수집 및 언어 식별 정확도 문제가 여전한 상황
AI 요약
Context
메타의 기존 번역 서비스는 저자원 언어(특히 크메르어 등 소수 언어)에서 품질이 크게 떨어지고 있었다. Common Crawl, FinePDFs, FineWeb 같은 기존 데이터셋은 품질이 낮고 처리가 거친데다, 가장 큰 병목은 텍스트 수집이 아니라 언어 식별 정확도임이 밝혀졌다. 논문 초록에서도 주어-동사 일치 오류 같은 기초적 문제가 노출되어 신뢰도 문제가 있었다.
Technical Solution
- NLLB(No Language Left Behind) 프로젝트를 통해 200개 언어로 확장 후, 1,600개 언어 지원으로 범위 확대
- OMT-LLaMA 모델 도입으로 기존 모델 대비 텍스트 생성 품질 향상
- 훈련 데이터 품질 개선 및 새로운 평가 도구 도입으로 다언어의 저주(언어 수 증가 시 품질 저하) 극복
- BOUQuET 벤치마크 공개: 번역 품질을 범언어적으로 평가하기 위한 오픈 이니셔티브
- 리더보드와 평가 데이터셋 공개(모델 가중치는 미공개)
Key Takeaway
저자원 언어 번역 시스템 개발 시, 데이터 수집보다 언어 식별 정확도 개선에 먼저 투자해야 하며, 다언어 모델의 확장성 유지를 위해서는 훈련 데이터 품질 관리와 개방형 평가 기준이 필수적이다.
실천 포인트
다국어 기계번역 서비스를 구축하는 팀에서는 새로운 언어 추가 시 텍스트 수집 파이프라인만 구성하지 말고, 해당 언어 식별 정확도를 먼저 벤치마크 테스트해야 하며, 공개 데이터셋(Common Crawl 등)의 언어 분류 오류를 수정하는 데이터 정제 단계를 필수적으로 포함해야 한다.