HuggingFace가 Transformer 기반 Decision Transformer를 오프라인 강화학습 데이터로 학습하는 방법론 제시로 MuJoCo HalfCheetah 환경에서 에이전트 정책 획득

Train your first Decision Transformer

2022년 9월 8일10분intermediate

AI 요약

Context

기존 강화학습은 가치 함수 최적화를 통해 보상을 최대화하는 방식이었으나, 오프라인 환경에서 제한된 데이터로부터 효과적인 정책을 학습하기 어려웠다.

강화학습을 조건부 시퀀스 모델링 문제로 재정의: 원하는 누적 보상(Return-to-go), 과거 상태, 과거 행동을 입력받아 미래 행동을 자동회귀 방식으로 생성
자동회귀 모델 아키텍처 구성: 반환값·상태·행동을 모달리티별 임베딩 레이어(상태는 선형 레이어 또는 CNN 인코더) → GPT-2 모델 → 인과 마스킹을 적용한 자기주의 메커니즘으로 행동 예측
오프라인 RL 데이터셋 전처리 파이프라인 구현: 각 특성을 평균 0, 표준편차 1로 정규화 → 궤적별 할인 보상 사전계산 → 보상과 반환값을 1000배 스케일링 → 전문가 에이전트 궤적 길이를 고려한 샘플링 분포 증강
HuggingFace Trainer와 커스텀 Data Collator 활용: 배치 크기 64, 학습률 1e-4, 에포크 120, AdamW 옵티마이저(가중치 감쇠 1e-4), 최대 그래디언트 노름 0.25로 학습 구성
HuggingFace hub의 오프라인 RL 데이터셋 활용: halfcheetah-expert-v2 데이터셋 로드 및 적용

오프라인 강화학습에서 생성형 궤적 모델링으로 기존 RL 알고리즘을 대체할 수 있으며, Transformer의 시퀀스 모델링 능력을 활용하면 전문가 데이터만으로 정책을 학습할 수 있다.

실천 포인트

제한된 전문가 데이터 또는 과거 에이전트 궤적만으로 강화학습을 수행해야 하는 상황에서, Decision Transformer의 조건부 시퀀스 모델링 방식을 도입하면 환경과 상호작용하지 않고도 정책을 획득할 수 있다.

태그