피드로 돌아가기
Dev.toAI/ML
원문 읽기
NVIDIA GR00T N1.7 기반 Robot Dexterity Scaling Law 입증
Physical AI has Scaling Laws now. The Race just became something else.
AI 요약
Context
기존 Physical AI는 Simulation-to-Reality 전이 과정의 신뢰성 부족과 고비용 Teleoperation 데이터 의존성으로 인해 성능 예측이 불가능한 한계 존재. LLM과 달리 물리적 조작 능력의 데이터-성능 간 상관관계에 대한 정량적 법칙이 부재한 상황임.
Technical Solution
- EgoScale 데이터셋의 egocentric video 20,854시간을 활용하여 고비용 Teleoperation 의존성 제거
- Cosmos-Reason2-2B VLM 기반의 Action Token 생성 후 32-layer Diffusion Transformer를 통한 Motor Command 변환 구조 설계
- Action Cascade 아키텍처 도입을 통한 고수준 추론과 저수준 제어의 단계적 분리 구현
- Apache 2.0 라이선스 적용으로 폐쇄적 API 생태계에서 Open Weights 기반의 특화 Fine-tuning 가능 구조로 전환
- Sim-to-Real 간극 해결을 위해 Simulator 배제 및 Real-Robot 기반의 물리적 벤치마크(ManipArena) 채택
Impact
- 학습 데이터 1,000시간에서 20,000시간으로 확장 시 Manipulation 성공률 2배 증가
- Generalist AI의 GEN-1 모델 기준 99% 신뢰도 달성 및 기존 벤치마크 대비 3배 빠른 동작 속도 구현
- BYD의 2026년 공장 내 20,000대 유닛 배포 및 연간 50,000대 생산 Capa 확보 계획
Key Takeaway
물리적 제어 영역에서도 LLM과 동일한 Scaling Law가 작동함을 확인하여, 아키텍처 고도화보다 데이터 규모 확장을 통한 성능 예측 가능성 확보가 우선됨.
실천 포인트
- 고비용의 직접 제어 데이터 대신 Egocentric Video 등 대체 가능한 대규모 데이터셋 확보 전략 검토 - VLM의 고수준 토큰과 Diffusion 모델의 저수준 제어를 결합한 Action Cascade 구조 적용 가능성 분석 - 시뮬레이션 지표가 아닌 Real-World 물리 벤치마크 기반의 성능 검증 파이프라인 구축