피드로 돌아가기
MolmoMotion: Language-guided 3D motion forecasting
Hugging Face BlogHugging Face Blog
AI/ML

MolmoMotion-1M 기반 범용 3D Motion Forecasting 모델 구현

MolmoMotion: Language-guided 3D motion forecasting

2026년 6월 17일9advanced

Context

기존 Motion Perception 기술의 사후 분석적 한계와 특정 객체 템플릿 의존성으로 인한 범용성 부족 문제 발생. 텍스트 지시어를 통해 미래 3D 궤적을 예측하는 일반화된 Motion Forecasting 아키텍처 필요성 증대.

Technical Solution

  • Class-agnostic 구현을 위해 객체 부착형 3D Point 기반의 World Space 표현 방식 채택
  • 카메라 뷰포인트 변화에 무관한 View-stable 특성 확보를 통한 데이터 일관성 유지
  • Molmo 2 Backbone을 활용한 이미지 토큰, 텍스트 토큰, 2D Query Point 피처의 통합 처리
  • 정밀한 궤적 예측을 위해 좌표를 구조화된 텍스트로 생성하는 MolmoMotion-AR 모델 설계
  • 불확실성이 높은 미래 예측 시 Noise를 Motion으로 변환하는 Flow-matching 기반 MolmoMotion-FM 도입
  • 1.16M 비디오 데이터셋 기반의 MolmoMotion-1M 구축을 통한 학습 데이터 부족 문제 해결

1. 도메인 범용성 확보를 위해 객체별 템플릿 대신 좌표 기반의 Class-agnostic 표현식 검토

2. 결정론적 예측(AR)과 확률적 예측(FM) 모델을 이원화하여 Task 특성에 맞는 아키텍처 선택

3. 3D World Space 좌표계 도입을 통한 Viewpoint-invariant한 데이터 파이프라인 설계

원문 읽기