Dropbox가 Mobius Labs의 Aana 멀티모달 모델을 Dash에 통합하여 기존 아키텍처 대비 연산량을 대폭 감소시키면서 텍스트·이미지·오디오·비디오 통합 이해 구현

With Mobius Labs' Aana models, we're bringing deeper multimodal understanding to Dropbox Dash

Eric Wang,Dmitriy Meyerzon,Dmitriy Meyerzon,Hicham Badri,Appu Shaji,Craig Wilhite,Josh Clemm,Jason Shang,Artem Nabirkin,Dropbox Team,Ameya Bhatawdekar,Sean-Michael Lewis,Appu Shaji2025년 10월 23일9분intermediate

AI 요약

Context

팀이 생성하는 콘텐츠가 텍스트, 이미지, 오디오, 비디오 등 여러 형식으로 분산되어 있어서 멀티모달 콘텐츠의 검색 및 해석이 어렵다. 특히 1시간짜리 비디오나 이미지 컬렉션에서 장면 변화, 화자 전환, 화면상 텍스트, 객체, 행동, 오디오 신호를 동시에 파싱하고 모달리티 간의 상호관계를 이해하는 것이 비용 측면에서 매우 비효율적이었다.

Technical Solution

멀티모달 기초 모델 스택 구성: Whisper 기반의 오디오 추론 최적화 모델(faster-whisper-large-v3-turbo), 트랜스포머 및 혼합 전문가(MoE) 아키텍처 기반 비전·언어 모델을 통합
HQQ 시스템으로 8비트·4비트 저비트 추론 구현: 연산 및 메모리 비용 대폭 감소
Gemlite 커스텀 GPU 커널로 행렬 곱셈 및 어텐션 레이어 같은 핵심 AI 연산 가속
Aana SDK를 통해 배칭, 모델 조율, GPU 활용률 최적화를 오케스트레이션하고 멀티모달 애플리케이션 구축·배포 프레임워크 제공
공유 벡터 공간으로 멀티모달 콘텐츠를 통합: "발표자가 API 플로우를 설명하는 부분" 같은 자연어 질의로 정확한 시점 검색 가능

Key Takeaway

멀티모달 시스템에서 각 모달리티를 독립적으로 처리하지 말고 모달리티 간의 상호관계를 공유 벡터 공간에 통합하며, 추론 최적화(저비트 정량화, 커스텀 커널)를 조합하면 대규모 콘텐츠 분석을 기존 대비 극히 낮은 연산량으로 구현할 수 있다.

실천 포인트

대량의 멀티모달 콘텐츠를 다루는 백엔드 팀이 Aana와 같은 멀티모달 모델을 도입할 때, HQQ(저비트 정량화) + 커스텀 GPU 커널 + 벡터 공간 통합을 단계적으로 적용하면 기존 아키텍처 대비 연산 및 메모리 오버헤드를 최소화하면서도 시간 경과에 따른 객체 움직임, 행동 전개, 장면 변화 추적 같은 고급 기능을 엑사바이트 규모로 제공할 수 있다.

태그

#Multimodal AI #Dropbox #GPU acceleration #Vector Search #Inference Optimization

원문 읽기