VLA 모델의 Fine-tuning 시 발생하는 Imitation Learning 퇴행 현상 검증

VLA or IL? A Controlled Dataset for Testing Whether Finetuning Turns Your VLA into a Fancy Imitation Learner

Yanzhe Xie2026년 5월 26일6분advanced

AI 요약

Context

VLM backbone과 Action expert를 결합한 VLA 구조는 일반적인 시각-언어 이해력을 기반으로 로봇 제어를 수행하도록 설계됨. 그러나 Fine-tuning 과정에서 모델이 장면 이해 대신 특정 학습 데이터의 시퀀스를 단순 암기하는 Imitation Learning 방식으로 퇴행하는 가능성이 제기됨.

Technical Solution

Language grounding과 Spatial generalization이라는 두 가지 핵심 속성을 독립적으로 검증하는 2x2 Controlled Dataset 설계
Prompt 변동(Seen vs Unseen)을 통해 대상 객체가 존재함에도 지시어 변경 시 동작 여부를 확인하는 Language grounding 테스트 구현
Object Position 변경(Original vs Shuffled)을 통해 학습 데이터 외 위치에서의 객체 식별 능력을 검증하는 Spatial generalization 테스트 설계
LIBERO-Object 벤치마크의 BDDL 설정을 활용하여 타겟 객체와 5개의 Distractor 객체 배치 및 프롬프트를 정밀하게 제어
특정 Task(Milk)에 대해 프롬프트와 위치 변수를 조합한 4가지 조건의 시나리오를 구성하여 모델의 일반화 성능을 정량적으로 측정

실천 포인트

1. Fine-tuning 후 모델이 단순 암기(Memorization)에 의존하는지 확인하기 위해 학습 데이터의 Prompt와 Object Position을 독립적으로 변경한 검증 셋을 구축할 것

2. 타겟 객체 외에 Distractor 객체를 배치하여 모델의 Language grounding 능력을 정밀하게 평가할 것

3. 학습 시 보지 못한(Unseen) 위치에 객체를 배치하여 Spatial generalization 성능을 반드시 검증할 것

태그

#Fine-Tuning #Language Grounding #VLA #Spatial Generalization #imitation-learning

원문 읽기