Preference Modeling 기반 Decision Transformer를 통한 행성 탐사 로버의 정렬 최적화

Human-Aligned Decision Transformers for planetary geology survey missions for low-power autonomous deployments

Rikin Patel2026년 4월 15일14분advanced

AI 요약

Context

기존 Reinforcement Learning 기반 로버는 scalar reward 위주의 RTG(Returns-to-Go) 최적화에 집중하여 지질학적 가치 판단이라는 복잡한 과학적 목표를 달성하지 못하는 Alignment 문제 발생. 단순 커버리지와 에너지 효율성 지표만으로는 탐사 대상의 우선순위를 결정하는 인간 전문가의 암묵적 의사결정 체계를 모사하기 어려운 한계 노출.

Technical Solution

Decision Transformer의 단순 모방 학습을 넘어 Direct Preference Optimization(DPO) 및 RLHF 개념을 도입한 Preference Modeling 설계
시뮬레이터를 통한 Trajectory Ranking Dataset을 구축하여 다목적 기준(샘플 다양성, 특징 근접성, 에너지 소비)에 기반한 궤적 쌍 생성
Transformer-based Preference Model을 통해 두 궤적 중 과학적 가치가 높은 세그먼트를 예측하는 스코어링 메커니즘 구현
저전력 배포를 위해 Distilled DT를 Spiking Neural Network(SNN)로 변환하여 비동기 센서 데이터 처리 효율 극대화
글로벌 경로 재계획 효율화를 위해 QAOA(Quantum Approximate Optimization Algorithm) 기반의 양자 영감 최적화 알고리즘 검토
상태(State)와 행동(Action) 임베딩에 Positional Encoding을 결합한 Causal Transformer 구조로 시퀀스 의사결정 최적화

실천 포인트

1. Scalar Reward로 정의하기 어려운 도메인 지식의 경우 Trajectory Pairing 기반의 선호도 학습 도입 검토

2. 추론 환경의 전력 제약이 극심한 경우 모델 Distillation 후 SNN(Spiking Neural Network) 변환 가능성 확인

3. 단순 Action Mimicking이 아닌 의사결정의 '의도'를 학습시키기 위해 Preference Model을 Reward Function의 대리자로 활용

태그

#RLHF #SNN #Preference Modeling #Decision Transformer #Alignment

원문 읽기