피드로 돌아가기
Dev.toAI/ML
원문 읽기
JEPA 기반 World Model로 LLM 한계 극복 및 Robot Planning 30배 가속
Yann LeCun thinks the whole industry is building the wrong thing, and now he has $1B to prove it
AI 요약
Context
Next-token prediction 방식의 LLM은 텍스트 데이터에만 의존하여 물리적 세계의 인과관계와 추론 능력이 결여된 구조적 한계 노출. 실제 물리적 상호작용에 대한 이해 없이 언어적 패턴만 학습함으로써 발생하는 Hallucinations 및 계획 능력 부재 해결 필요.
Technical Solution
- Pixel space의 세부 정보 대신 Latent space에서 추상적 표현을 예측하는 JEPA(Joint Embedding Predictive Architecture) 설계
- 예측 불가능한 저수준 노이즈를 제거하고 핵심 구조만 유지하는 추상화 계층 도입
- Generative 방식이 아닌 물리 엔진과 유사하게 환경의 기본 역학(Underlying Dynamics)을 학습하는 비생성적 아키텍처 채택
- 비디오 관찰과 환경 상호작용 데이터를 통한 내부 시뮬레이션으로 World Model 구축
- 1.2B 파라미터 규모의 V-JEPA 2를 통해 최소한의 로봇 상호작용 데이터만으로 Zero-shot Planning 구현
실천 포인트
- 단순 텍스트 기반 LLM으로 해결 불가능한 물리적 제어/추론 도메인인지 확인 - 고해상도 픽셀 예측 대신 의미론적 추상화(Abstract Representation)를 통한 예측 모델 검토 - Zero-shot 일반화를 위해 Task-specific 학습보다 범용 World Model의 전이 학습 가능성 분석