피드로 돌아가기
Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective
Hugging Face BlogHugging Face Blog
AI/ML

LinkedIn이 GPT-OSS 모델에서 MoE 아키텍처의 로그확률 불일치와 Attention Sink 역전파 미지원을 수정해 에이전틱 강화학습 훈련 안정화

Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective

2026년 1월 27일9advanced

Context

GPT-OSS 모델은 OpenAI o3-mini 및 o4-mini와 비슷한 성능을 보였으나 에이전틱 강화학습 훈련에 적합한지 검증되지 않았다. 초기 훈련 실행에서 KL 발산과 엔트로피 폭증, 보상 미증가 현상이 발생하여 근본적인 훈련 설정 문제가 있었다.

Technical Solution

  • PPO 온정책 무결성 복원: MoE 아키텍처로 인한 비결정성에서 발생한 로그확률 불일치를 수정해 중요도 샘플링 비율이 정확히 1이 되도록 보장
  • Attention Sink 역전파 구현: FlashAttention v3에 Attention Sink 백워드 패스를 통합하여 훈련-추론 불일치로 인한 불안정성 해결
  • MoE 메모리 할당 최적화: MoE 구체화 프로세스 패칭을 수행
  • 시퀀스 병렬화와 Attention Sink 통합: 다단계 에이전트에 필요한 장문맥 윈도우 지원으로 메모리 효율성 확보
  • verl 프레임워크 업데이트: Harmony 채팅 템플릿 지원으로 롤아웃 생성, 궤적 구성, 도구 파싱의 일관성 확보

Impact

Figure 2에서 온정책 훈련에서도 중요도 샘플링 클립 값이 0이 아닌 문제가 해결되었으며, Figure 5~7에서 Attention Sink 적용 후 수렴 속도 개선이 확인되었다.

Key Takeaway

오픈소스 LLM의 고급 기능 활성화는 MoE 비결정성, 주의 메커니즘 불일치 같은 아키텍처 수준의 세부 문제를 정확히 진단하고 해결해야 한다는 점을 보여준다. 온정책 강화학습 안정성을 위해서는 정책 비율 계산의 수학적 요구조건(π = π_old)을 훈련 전 단계에서부터 엄격히 검증해야 한다.


MoE 기반 LLM을 사용하는 팀에서 온정책 강화학습을 도입할 때, 샘플링 비율 계산이 정확히

1.0인지 검증하고 FlashAttention 같은 최적화된 주의 구현에서 훈련-추론 일관성을 확보하면, KL 발산 폭증과 느린 수렴 문제를 사전에 방지할 수 있다.

원문 읽기