피드로 돌아가기
The Whole Paper Fits in One Sigmoid: Implementing the SDAR Gate
Dev.toDev.to
AI/ML

Sigmoid Gate 기반 가중치 제어로 GRPO 학습 안정성 및 증류 효율 극대화

The Whole Paper Fits in One Sigmoid: Implementing the SDAR Gate

Shoaibali Mir2026년 6월 14일7advanced

Context

Multi-step Agent 학습 시 Trajectory Reward의 낮은 해상도로 인해 토큰 단위의 정밀한 가이드 부족 현상 발생. 기존 GRPO와 OPSD 결합 방식의 불안정성을 해결하기 위해 Privileged Teacher의 지식을 선택적으로 수용하는 메커니즘 필요.

Technical Solution

  • Teacher와 Student 간의 Log-probability 차이(Gap)를 측정하여 토큰별 신뢰도 산출
  • 산출된 Gap을 Sigmoid 함수에 통과시켜 0~1 사이의 가중치를 결정하는 Gate 구조 설계
  • Teacher의 확신이 높은(Positive Gap) 토큰은 Distill Hard 전략으로 강하게 학습하고, 반대의 경우 학습 강도를 낮추는 비대칭 가중치 적용
  • Forward KL Divergence를 통해 Student가 Teacher의 분포 전체를 커버하도록 유도하는 Mode-covering 전략 채택
  • Gate 계산 시 .detach()를 적용하여 Teacher 모델로의 Gradient 전파를 차단하고 순수 가중치로만 활용하는 구조 구현
  • GRPO Loss에 Gated Distillation Loss를 Auxiliary Nudge 형태로 결합한 하이브리드 목적 함수 설계

1. Teacher 모델의 Forward Pass 시 반드시 no_grad 및 .detach()를 사용하여 불필요한 Gradient 계산과 2차 미분 문제를 방지할 것

2. 증류 목적에 따라 Mode-covering(Forward KL)과 Mode-seeking(Reverse KL) 중 적절한 KL 방향을 선택할 것

3. 학습 초기 단계에서 $\lambda$ 값을 점진적으로 스케줄링하여 Teacher의 노이즈 섞인 초기 신호가 학습을 교란하지 않도록 제어할 것

4. 가중치 결정 함수(Sigmoid)의 Temperature($\tau$) 파라미터를 조정하여 Gate의 Saturate 현상을 방지할 것

원문 읽기