Hugging Face BlogLinkedIn이 GPT-OSS 모델에서 MoE 아키텍처의 로그확률 불일치와 Attention Sink 역전파 미지원을 수정해 에이전틱 강화학습 훈련 안정화Unlocking Agentic RL Training for GPT-OSS: A Practical RetrospectiveAI/MLadvanced44 분 소요2026년 1월 27일