피드로 돌아가기
Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action
Hugging Face BlogHugging Face Blog
AI/ML

MoT 기반 Omni-model로 물리적 AI 추론과 생성 통합

Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action

2026년 6월 1일9advanced

Context

기존 Cosmos 모델은 World Generation, Reasoning, Policy Generation 등 각 기능별로 개별 모델과 추론 파이프라인을 분리하여 운용함. 이로 인해 서로 다른 모달리티 간의 상호작용 시 복잡한 파이프라인 관리 및 데이터 전송 오버헤드가 발생하는 구조적 한계가 존재함.

Technical Solution

  • Mixture-of-Transformers(MoT) 아키텍처 채택을 통한 단일 모델 내 다중 모달리티 처리 구조 설계
  • ViT(Visual), VAE(Generation), Domain-aware Vector(Action)를 통한 모달리티별 전용 인코딩 후 공통 표현 공간(Shared Representation Space)으로 투영
  • 입력 시퀀스를 AR(Autoregressive) 하위 시퀀스와 DM(Diffusion) 하위 시퀀스로 분리하여 추론과 생성을 동시 처리
  • AR-DM 토큰 간 별도의 파라미터 셋을 유지하면서 Joint Attention 메커니즘을 통해 상호작용하는 하이브리드 구조 구현
  • 단일 Forward Pass 내에서 VLM, Video Generator, Dynamics Model, Robot Policy 역할을 유연하게 전환하는 통합 추론 경로 확보

1. 다중 모달리티 통합 시 각 입력 특성에 맞는 전용 Encoder-Projector 구조 검토

2. 추론(AR)과 생성(DM)의 특성이 공존해야 하는 시스템에서 Joint Attention을 통한 파라미터 공유 범위 설정

3. 배포 환경(Workstation vs Cluster)에 따른 모델 파라미터 규모(16B vs 64B) 최적화 전략 수립

원문 읽기