Cohere for AI가 23개 언어 지원 비전-언어 모델 Aya Vision 8B/32B를 공개하며 동급 대비 최대 81% 승률 달성

A Deepdive into Aya Vision: Advancing the Frontier of Multilingual Multimodality

2025년 3월 4일9분intermediate

AI 요약

Context

기존 다국어 비전-언어 모델(VLM)은 영어가 아닌 언어에서 성능이 급격히 저하되는 문제를 겪고 있었다. 특히 이미지 캡셔닝, 시각 질의응답 등 멀티모달 작업에서 저자원 언어의 데이터 부족이 심각한 병목이었다.

고해상도 이미지 처리 구현: 임의 해상도의 이미지를 동적으로 리사이징 및 타일 분할하여 이미지 인코더에 입력
이미지 토큰 압축: Pixel Shuffle 다운샘플링으로 이미지 토큰 개수를 4배 감소시켜 지연시간 및 처리량 개선
SigLIP2-patch14-384 비전 인코더 도입: 다국어 시맨틱 이해 성능 향상
2단계 학습 프로세스 적용: (1) 비전-언어 커넥터만 학습하며 이미지 인코더와 언어 모델 가중치 고정, (2) 다양한 멀티모달 작업으로 커넥터와 언어 모델 동시 학습
다국어 데이터 확대 전략: 영어 고품질 데이터셋의 합성 주석(synthetic annotations) 생성 → 23개 언어로 번역 → 원본 샘플과 매칭하여 재표현(rephrasing)으로 번역 인공물 제거
Aya Expanse 기반 언어 모델 선택: 8B 모델은 Command R7B 초기화 후 Aya Expanse 레시피로 후학습, 32B 모델은 Aya Expanse 32B 직접 사용

Aya Vision 32B: AyaVisionBench에서 Llama-3.2 90B Vision, Molmo 72B, Qwen2.5-VL 72B 대비 50~64% 승률 달성
Aya Vision 32B: mWildVision(23개 언어 평균)에서 위 모델들 대비 52~72% 승률 달성
Aya Vision 8B: AyaVisionBench에서 Qwen2.5-VL 7B, Pixtral 12B, Gemini Flash 1.5 8B, Llama-3.2 11B Vision, Molmo-D 7B, Pangea 7B 대비 최대 79% 승률 달성
Aya Vision 8B: mWildBench에서 동급 모델들 대비 최대 81% 승률 달성
데이터 강화 효과: 학술 데이터셋만 사용 시 40.9% 승률 → 합성 주석 및 다국어 데이터 확대 후 58.1% 승률 (17.2% 포인트 향상)

다국어 멀티모달 성능은 합성 주석 생성과 번역 후 재표현을 통한 체계적인 데이터 확대, 그리고 동적 이미지 처리와 토큰 압축을 통한 효율화 기법의 조합으로 달성된다. 저자원 언어의 데이터 부족 극복은 단순 번역보다 원본과의 매칭 기반 재표현이 핵심 가치다.

실천 포인트

다국어 멀티모달 모델을 개발하는 엔지니어들은 고품질 영어 합성 데이터 생성 후 이를 번역하고 원본 샘플과 재매칭하는 세 단계 데이터 강화 기법을 적용하면, 저자원 언어에서의 성능 저하를 최소화하고 단일 모델로 23개 언어를 지원할 수 있다.

태그