2만 시간 Human 데이터 기반 Dexterity Scaling Law 달성한 3B VLA 모델

NVIDIA Isaac GR00T N1.7: A Foundation Model for Humanoid Robots

2026년 4월 17일3분advanced

AI 요약

Context

기존 로봇 학습 모델의 Teleoperation 데이터 수집 비용 및 확장성 한계로 인한 정교한 조작 능력 부족 문제 직면. 소량의 로봇 데이터만으로는 복잡한 워크플로우의 일반화와 정밀한 제어 성능 확보에 어려움 존재.

고차원 추론과 저차원 제어를 분리한 Action Cascade 아키텍처 설계
System 2에 Cosmos-Reason2-2B VLM을 배치하여 이미지 토큰 및 언어 명령 기반의 Task Decomposition 수행
System 1에 32-layer Diffusion Transformer(DiT)를 적용하여 실시간 Motor Command로의 Denoising 처리
20,854시간의 Human Egocentric Video 데이터를 활용한 EgoScale 사전 학습으로 Manipulation Prior 확보
RGB 이미지, 언어 지시어, 로봇 Proprioceptive State를 통합 입력받아 연속적인 Action Vector 출력
LeRobot 데이터셋 포맷 지원을 통한 Embodiment별 유연한 Fine-tuning 구조 제공

실천 포인트

1. 복잡한 제어 시스템 설계 시 고수준 의사결정 모델과 저수준 실행 모델을 분리하는 Dual-system 구조 검토

2. 도메인 특화 데이터 부족 시 유사한 Embodiment를 가진 타 도메인의 대규모 데이터셋을 활용한 Pre-training 전략 수립

3. 실시간성 확보를 위해 Diffusion 모델의 Denoising Step 최적화 및 추론 파이프라인 효율화 적용

태그