피드로 돌아가기
Nvidia Cosmos 3
GeekNewsGeekNews
AI/ML

단일 모델 기반 물리 AI 통합으로 추론-생성 오케스트레이션 최적화

Nvidia Cosmos 3

xguru2026년 6월 2일7advanced

Context

기존 물리 AI 시스템은 월드 생성, 물리 이해, 장면 생성 모델이 파편화된 워크플로로 분리되어 운영됨. 이로 인한 모델 간 오케스트레이션 복잡도 증가와 추론 파이프라인의 병목 현상이 주요 한계점으로 작용함.

Technical Solution

  • Mixture-of-Transformers 구조 기반 Reasoner와 Generator 타워의 단일 모델 통합 설계
  • Reasoner tower를 통한 멀티모달 관찰 해석 및 자기회귀 기반 물리적 맥락 이해 구현
  • Generator tower의 Diffusion 기반 프로세스를 통한 물리 인식 비디오 및 행동 출력 생성
  • Reasoner의 이해 결과를 조건으로 Generator를 활성화하는 종속적 생성 구조 채택
  • vLLM 기반의 Continuous Batching 및 Paged Attention 적용으로 추론 효율성 극대화
  • Efficient Video Sampling(EVS) 기법을 통한 입력 비디오 토큰 최적화 및 추론 속도 향상

Impact

  • NVFP4 양자화 적용을 통한 BF16 대비 최대 2배의 추론 속도 달성
  • 16B(Nano) 및 64B(Super) 파라미터 모델 제공으로 워크스테이션 및 데이터센터 환경 최적화
  • VANTAGE-Bench 32B 및 8B 티어 내 성능 선두 기록

- 도메인 특화 물리 AI 구축 시 Reasoner-Generator 분리 구조를 통한 모듈형 추론 설계 검토 - 추론 속도 최적화를 위해 입력 데이터의 고유 청크만 유지하는 EVS 방식의 토큰 가지치기 적용 고려 - 고성능 추론을 위해 vLLM 기반의 Tensor Parallelism 및 양자화(FP8/NVFP4) 파이프라인 구축

원문 읽기