피드로 돌아가기
NVIDIA Cosmos Reason 2 Brings Advanced Reasoning To Physical AI
Hugging Face BlogHugging Face Blog
AI/ML

NVIDIA가 Cosmos Reason 2 비전 언어 모델을 출시해 로봇과 AI 에이전트의 공간-시간 추론 능력 향상 및 입력 토큰 길이를 16K에서 256K로 확장

NVIDIA Cosmos Reason 2 Brings Advanced Reasoning To Physical AI

2026년 1월 5일7intermediate

Context

기존 비전-언어 모델들은 객체 인식과 패턴 인식에는 뛰어나지만, 다단계 계획 수립, 불확실성 처리, 새로운 상황 적응 같은 인지 추론 작업에서는 성능이 부족했다. 로봇과 AI 에이전트가 물리 세계에서 인간처럼 행동하려면 상식, 물리학, 시간-공간 이해가 필요했다.

Technical Solution

  • 공간-시간 이해 및 타임스탬프 정밀도 향상: 비디오 내 객체 움직임 추적 및 시간 정보 정확도 개선
  • 입력 토큰 길이 확장: 16K 토큰에서 256K 토큰으로 확대하여 장문맥 이해 능력 강화
  • 다중 모달 공간 이해 기능 추가: 2D/3D 포인트 로컬라이제이션, 바운딩 박스 좌표, 궤적 데이터, OCR 지원 통합
  • 모델 크기 옵션 제공: 2B, 8B 파라미터 모델로 엣지부터 클라우드까지 유연한 배포 가능
  • 로봇 계획 및 추론 기능 강화: 다음 단계 결정뿐 아니라 로봇 그리퍼 궤적 좌표를 JSON 출력으로 제공

Impact

  • BLEU 점수 10.6% 향상 (0.113 → 0.125) 자율주행 비디오 캡셔닝 평가
  • MCQ 기반 VQA 정확도 0.67 포인트 상승 (80.18% → 80.85%)
  • LingoQA 성능 13.8% 증가 (63.2% → 77.0%)

Key Takeaway

Reasoning VLM을 통해 로봇과 AI 에이전트의 추론 능력을 향상시킬 때, 입력 컨텍스트 길이 확장과 함께 구체적인 공간-시간 좌표 출력(점, 박스, 궤적)을 제공하면 도메인 특화 작업(자율주행, 로봇 계획)에서 측정 가능한 성능 향상을 달성할 수 있다.


로봇 비전 제어 시스템이나 비디오 분석 AI 에이전트를 개발하는 팀에서 Cosmos Reason 2의 256K 입력 토큰과 궤적 좌표 출력을 활용하면, 장시간 비디오 컨텍스트에서 다단계 계획을 생성하고 세밀한 로봇 그리퍼 경로를 계산할 수 있어 자동화 작업의 정확도를 높일 수 있다.

원문 읽기