피드로 돌아가기
NVIDIA Isaac GR00T N1.7: A Foundation Model for Humanoid Robots
Hugging Face BlogHugging Face Blog
AI/ML

2만 시간 Human 데이터 기반 Dexterity Scaling Law 달성한 3B VLA 모델

NVIDIA Isaac GR00T N1.7: A Foundation Model for Humanoid Robots

2026년 4월 17일3advanced

Context

기존 로봇 학습 모델의 Teleoperation 데이터 수집 비용 및 확장성 한계로 인한 정교한 조작 능력 부족 문제 직면. 소량의 로봇 데이터만으로는 복잡한 워크플로우의 일반화와 정밀한 제어 성능 확보에 어려움 존재.

Technical Solution

  • 고차원 추론과 저차원 제어를 분리한 Action Cascade 아키텍처 설계
  • System 2에 Cosmos-Reason2-2B VLM을 배치하여 이미지 토큰 및 언어 명령 기반의 Task Decomposition 수행
  • System 1에 32-layer Diffusion Transformer(DiT)를 적용하여 실시간 Motor Command로의 Denoising 처리
  • 20,854시간의 Human Egocentric Video 데이터를 활용한 EgoScale 사전 학습으로 Manipulation Prior 확보
  • RGB 이미지, 언어 지시어, 로봇 Proprioceptive State를 통합 입력받아 연속적인 Action Vector 출력
  • LeRobot 데이터셋 포맷 지원을 통한 Embodiment별 유연한 Fine-tuning 구조 제공

1. 복잡한 제어 시스템 설계 시 고수준 의사결정 모델과 저수준 실행 모델을 분리하는 Dual-system 구조 검토

2. 도메인 특화 데이터 부족 시 유사한 Embodiment를 가진 타 도메인의 대규모 데이터셋을 활용한 Pre-training 전략 수립

3. 실시간성 확보를 위해 Diffusion 모델의 Denoising Step 최적화 및 추론 파이프라인 효율화 적용

원문 읽기