Sigmoid Gate 기반 가중치 제어로 GRPO 학습 안정성 및 증류 효율 극대화

The Whole Paper Fits in One Sigmoid: Implementing the SDAR Gate

Shoaibali Mir2026년 6월 14일7분advanced

AI 요약

Context

Multi-step Agent 학습 시 Trajectory Reward의 낮은 해상도로 인해 토큰 단위의 정밀한 가이드 부족 현상 발생. 기존 GRPO와 OPSD 결합 방식의 불안정성을 해결하기 위해 Privileged Teacher의 지식을 선택적으로 수용하는 메커니즘 필요.

Technical Solution

Teacher와 Student 간의 Log-probability 차이(Gap)를 측정하여 토큰별 신뢰도 산출
산출된 Gap을 Sigmoid 함수에 통과시켜 0~1 사이의 가중치를 결정하는 Gate 구조 설계
Teacher의 확신이 높은(Positive Gap) 토큰은 Distill Hard 전략으로 강하게 학습하고, 반대의 경우 학습 강도를 낮추는 비대칭 가중치 적용
Forward KL Divergence를 통해 Student가 Teacher의 분포 전체를 커버하도록 유도하는 Mode-covering 전략 채택
Gate 계산 시 .detach()를 적용하여 Teacher 모델로의 Gradient 전파를 차단하고 순수 가중치로만 활용하는 구조 구현
GRPO Loss에 Gated Distillation Loss를 Auxiliary Nudge 형태로 결합한 하이브리드 목적 함수 설계

실천 포인트

1. Teacher 모델의 Forward Pass 시 반드시 no_grad 및 .detach()를 사용하여 불필요한 Gradient 계산과 2차 미분 문제를 방지할 것

2. 증류 목적에 따라 Mode-covering(Forward KL)과 Mode-seeking(Reverse KL) 중 적절한 KL 방향을 선택할 것

3. 학습 초기 단계에서 $\lambda$ 값을 점진적으로 스케줄링하여 Teacher의 노이즈 섞인 초기 신호가 학습을 교란하지 않도록 제어할 것

4. 가중치 결정 함수(Sigmoid)의 Temperature($\tau$) 파라미터를 조정하여 Gate의 Saturate 현상을 방지할 것

태그

#RLHF #Knowledge Distillation #Sigmoid Gate #Forward KL #GRPO

원문 읽기