vLLM V1 마이그레이션을 통한 RL Train-Inference Mismatch 완전 해결

vLLM V0 to V1: Correctness Before Corrections in RL

2026년 5월 6일7분advanced

AI 요약

Context

RL 파이프라인에서 Rollout 생성 시 사용하는 Inference Engine의 Logprobs 계산 방식이 Trainer와 불일치하는 현상 발생. vLLM V0에서 V1으로의 엔진 전환 과정에서 발생한 백엔드 동작 차이가 학습 역학(Training Dynamics)을 왜곡하는 병목 지점으로 작용.

Technical Solution

logprobs-mode=processed_logprobs 설정을 통한 Sampler 처리 후 분포 값으로의 Semantic Mismatch 해결
Prefix Caching 및 Async Scheduling 비활성화를 통해 Weight Update 경계에서의 상태 재사용 오류 제거
fp32 lm_head 적용으로 최종 Projection 단계의 정밀도를 확보하여 V0 레퍼런스와의 수치적 정밀도 일치
Backend Correctness를 우선 확보한 후 RL Objective를 수정하는 단계적 접근법으로 디버깅 복잡도 최소화
Inflight Weight Update 경로 최적화를 통해 모델 가중치 동기화 시점의 일관성 유지

실천 포인트

1. 추론 엔진 변경 시 Raw Logits와 Processed Logprobs의 정의가 동일한지 확인

2. Online RL 환경에서 Prefix Caching 사용 시 Weight Update 경계에서 캐시 무효화 로직 검토

3. FP32/BF16 등 정밀도 차이가 학습 지표(KL, Entropy)에 미치는 영향 분석

4. 인프라 변경과 알고리즘 수정을 동시에 진행하지 않고 단계별로 격리하여 검증

태그

#Inference Engine #Train-Inference Mismatch #Reinforcement Learning #vLLM #Logprobs

원문 읽기