NVIDIA가 Cosmos Reason 2 비전 언어 모델을 출시해 로봇과 AI 에이전트의 공간-시간 추론 능력 향상 및 입력 토큰 길이를 16K에서 256K로 확장

NVIDIA Cosmos Reason 2 Brings Advanced Reasoning To Physical AI

2026년 1월 5일7분intermediate

AI 요약

Context

기존 비전-언어 모델들은 객체 인식과 패턴 인식에는 뛰어나지만, 다단계 계획 수립, 불확실성 처리, 새로운 상황 적응 같은 인지 추론 작업에서는 성능이 부족했다. 로봇과 AI 에이전트가 물리 세계에서 인간처럼 행동하려면 상식, 물리학, 시간-공간 이해가 필요했다.

Technical Solution

공간-시간 이해 및 타임스탬프 정밀도 향상: 비디오 내 객체 움직임 추적 및 시간 정보 정확도 개선
입력 토큰 길이 확장: 16K 토큰에서 256K 토큰으로 확대하여 장문맥 이해 능력 강화
다중 모달 공간 이해 기능 추가: 2D/3D 포인트 로컬라이제이션, 바운딩 박스 좌표, 궤적 데이터, OCR 지원 통합
모델 크기 옵션 제공: 2B, 8B 파라미터 모델로 엣지부터 클라우드까지 유연한 배포 가능
로봇 계획 및 추론 기능 강화: 다음 단계 결정뿐 아니라 로봇 그리퍼 궤적 좌표를 JSON 출력으로 제공

Impact

BLEU 점수 10.6% 향상 (0.113 → 0.125) 자율주행 비디오 캡셔닝 평가
MCQ 기반 VQA 정확도 0.67 포인트 상승 (80.18% → 80.85%)
LingoQA 성능 13.8% 증가 (63.2% → 77.0%)

Key Takeaway

Reasoning VLM을 통해 로봇과 AI 에이전트의 추론 능력을 향상시킬 때, 입력 컨텍스트 길이 확장과 함께 구체적인 공간-시간 좌표 출력(점, 박스, 궤적)을 제공하면 도메인 특화 작업(자율주행, 로봇 계획)에서 측정 가능한 성능 향상을 달성할 수 있다.

실천 포인트

로봇 비전 제어 시스템이나 비디오 분석 AI 에이전트를 개발하는 팀에서 Cosmos Reason 2의 256K 입력 토큰과 궤적 좌표 출력을 활용하면, 장시간 비디오 컨텍스트에서 다단계 계획을 생성하고 세밀한 로봇 그리퍼 경로를 계산할 수 있어 자동화 작업의 정확도를 높일 수 있다.

태그

#Vision Language Model #Robotics #Reasoning #Computer Vision #Physical AI

원문 읽기