NVIDIA GR00T N1.7 기반 Robot Dexterity Scaling Law 입증

Physical AI has Scaling Laws now. The Race just became something else.

xBerry2026년 6월 9일6분advanced

AI 요약

Context

기존 Physical AI는 Simulation-to-Reality 전이 과정의 신뢰성 부족과 고비용 Teleoperation 데이터 의존성으로 인해 성능 예측이 불가능한 한계 존재. LLM과 달리 물리적 조작 능력의 데이터-성능 간 상관관계에 대한 정량적 법칙이 부재한 상황임.

Technical Solution

EgoScale 데이터셋의 egocentric video 20,854시간을 활용하여 고비용 Teleoperation 의존성 제거
Cosmos-Reason2-2B VLM 기반의 Action Token 생성 후 32-layer Diffusion Transformer를 통한 Motor Command 변환 구조 설계
Action Cascade 아키텍처 도입을 통한 고수준 추론과 저수준 제어의 단계적 분리 구현
Apache 2.0 라이선스 적용으로 폐쇄적 API 생태계에서 Open Weights 기반의 특화 Fine-tuning 가능 구조로 전환
Sim-to-Real 간극 해결을 위해 Simulator 배제 및 Real-Robot 기반의 물리적 벤치마크(ManipArena) 채택

Impact

학습 데이터 1,000시간에서 20,000시간으로 확장 시 Manipulation 성공률 2배 증가
Generalist AI의 GEN-1 모델 기준 99% 신뢰도 달성 및 기존 벤치마크 대비 3배 빠른 동작 속도 구현
BYD의 2026년 공장 내 20,000대 유닛 배포 및 연간 50,000대 생산 Capa 확보 계획

Key Takeaway

물리적 제어 영역에서도 LLM과 동일한 Scaling Law가 작동함을 확인하여, 아키텍처 고도화보다 데이터 규모 확장을 통한 성능 예측 가능성 확보가 우선됨.

실천 포인트

- 고비용의 직접 제어 데이터 대신 Egocentric Video 등 대체 가능한 대규모 데이터셋 확보 전략 검토 - VLM의 고수준 토큰과 Diffusion 모델의 저수준 제어를 결합한 Action Cascade 구조 적용 가능성 분석 - 시뮬레이션 지표가 아닌 Real-World 물리 벤치마크 기반의 성능 검증 파이프라인 구축

태그

#Action Cascade #Diffusion Transformer #Scaling Law #VLM #Physical AI

원문 읽기