피드로 돌아가기
NVIDIA's GTC 2025 Announcement for Physical AI Developers: New Open Models and Datasets
Hugging Face BlogHugging Face Blog
AI/ML

NVIDIA가 GTC 2025에서 Cosmos Transfer, Physical AI Dataset, Isaac GR00T N1을 공개해 로봇 및 자율주행 개발자에게 오픈소스 기초모델 3종 제공

NVIDIA's GTC 2025 Announcement for Physical AI Developers: New Open Models and Datasets

2025년 3월 18일7intermediate

Context

물리적 AI 개발자들은 로봇 시스템과 자율주행 기술 개발 시 고품질의 기초모델, 합성 데이터 생성 도구, 그리고 휴머노이드 로봇 제어 모델의 부재로 인한 개발 난제를 겪고 있었다.

Technical Solution

  • Cosmos Transfer 배포: 7B 파라미터 규모의 멀티컨트롤 월드 파운데이션 모델로 3D 바운딩 박스, Trajectory, Depth, Segmentation 맵 등 4가지 입력 타입을 기반으로 고충실도 가상 월드 장면 생성
  • 멀티모달 컨트롤 메커니즘 구현: 각 센서 모달리티별로 독립적인 ControlNet 학습 후 추론 시 구조적 시각/기하학적 데이터(HD 맵, LiDAR 스캔, 모션 키포인트 등)로 출력 제어
  • Physical AI Dataset 공개: 15TB 규모의 320,000+ 로봇 궤적 데이터와 1,000개의 OpenUSD 자산(SimReady 컬렉션 포함) 제공
  • Isaac GR00T N1 모델 배포: 2B 파라미터 교차-구현 기초모델로 언어·이미지 멀티모달 입력을 통해 휴머노이드 로봇의 조작 작업 수행
  • 듀얼 시스템 아키텍처 도입: Vision-Language Model(System 2, NVIDIA-Eagle + SmolLM-1.7B 기반)과 Diffusion Transformer(System 1)로 환경 추론과 연속 액션 제어 분리

Key Takeaway

로봇 및 자율주행 개발에 있어 대규모 실제 데이터, 합성 데이터 생성, 그리고 포괄적인 기초모델을 오픈소스로 제공하는 것이 커뮤니티 기반 물리적 AI 발전의 핵심 가속제가 될 수 있다.


휴머노이드 로봇 개발팀에서 Isaac GR00T N1의 포스트트레이닝 구조(Hugging Face LeRobot 포맷 호환 PyTorch 스크립트 활용)를 이용하면 특정 로봇 플랫폼과 작업 환경에 맞춘 커스텀 모델을 개발할 때 기초모델 학습 시간을 크게 단축할 수 있다. 자율주행 개발팀에서는 Cosmos Transfer와 NVIDIA Omniverse를 결합해 다양한 환경·날씨 조건의 합성 데이터를 대규모로 생성함으로써 실제 데이터 수집 비용을 절감하고 모델 다양성을 확보할 수 있다.

원문 읽기