피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Qwen3.5-Omni: 텍스트·이미지·오디오·영상을 모두 처리하는 완전 옴니모달 LLM 출시
Alibaba Qwen팀이 텍스트·이미지·오디오·영상을 통합 처리하는 Qwen3.5-Omni를 출시하여 오디오-비주얼 215개 벤치마크에서 SOTA 달성
AI 요약
Context
기존 옴니모달 모델은 텍스트와 음성 토큰 인코딩 효율 차이로 스트리밍 음성 합성 시 누락·오독 문제가 발생했다. 이전 세대 Qwen3-Omni는 MoE 백본, 32k 시퀀스 길이, 고정 1:1 텍스트-음성 토크나이저 비율을 사용했다. 다국어 지원도 11개 언어 ASR, 29개 언어 TTS로 제한적이었다.
Technical Solution
- Qwen팀 → Hybrid-Attention MoE 구조를 Thinker와 Talker 모두에 적용
- 음성 인식 → 74개 언어 및 39개 중국어 방언 지원으로 확장
- 음성 합성 → 36개 언어 지원으로 확대
- 텍스트-음성 동기화 → ARIA 기술로 동적 토큰 인터리빙 방식으로 대체
- 실시간 대화 → 시맨틱 인터럽션, WebSearch, FunctionCall 네이티브 지원
Impact
- Qwen3.5-Omni-Plus가 오디오-비주얼 215개 벤치마크에서 SOTA 달성
- 일반 오디오 이해·추론·번역·대화 전 영역에서 Gemini-3.1 Pro 초과
- MMAU: 82.2 vs 81.1 (Gemini-3.1 Pro)
- VoiceBench: 93.1 vs 88.9 (Gemini-3.1 Pro)
- 음성 합성 WER: 6.24 vs ElevenLabs 27.70
Key Takeaway
옴니모달 모델의 핵심은 모달리티 간 토큰 처리 효율 차이를 동적 인터리빙으로 해결하는 것にある。
실천 포인트
멀티모달 AI 서비스에서 텍스트·오디오 동시 출력 요구 시 ARIA 같은 적응형 토큰 동기화 기술을 적용 시 스트리밍 품질과 안정성을 동시에 확보할 수 있다