Per-parameter Scaling을 통한 Sparse Gradient 최적화 및 RMSProp의 EMA 기반 학습률 복구

Blog 3: Adaptive Learning Rate Methods (Part 1)

Harshil Rami2026년 4월 23일9분intermediate

AI 요약

Context

단일 Scalar Learning Rate 적용 시 Sparse Feature와 Dense Feature 간의 업데이트 불균형 발생. 모든 파라미터에 동일한 $\eta$를 적용함에 따라 Dense Layer의 Oscillation 또는 Sparse Layer의 학습 정체라는 Trade-off 직면.

Technical Solution

AdaGrad 도입을 통한 파라미터별 Gradient History 기반의 개별 Learning Rate 산출
$\sqrt{G_t}$ 분모 설계를 통한 Sparse 파라미터의 공격적 업데이트 및 Dense 파라미터의 보수적 업데이트 구현
AdaGrad의 누적 합산 구조로 인한 Learning Rate 소멸 문제를 해결하기 위해 RMSProp의 Exponentially Weighted Moving Average(EMA) 도입
Decay Coefficient $\rho$ 적용을 통해 과거 Gradient 영향력을 제한하고 최근의 곡률 정보를 반영하는 구조적 유연성 확보
Momentum의 방향성 유지 기능과 Adaptive Scaling의 크기 정규화 기능을 분리하여 분석 후 Adam으로의 통합 기반 마련

실천 포인트

- NLP 임베딩이나 추천 시스템 등 Sparse Feature가 지배적인 모델 설계 시 AdaGrad 계열의 Adaptive LR 검토 - 딥러닝 모델의 Long-run Training 시 Learning Rate가 0으로 수렴하는 현상 발견 시 EMA 기반의 RMSProp 또는 Adam으로 교체 - Non-stationary Loss Surface 환경에서 과거 Gradient 정보가 현재의 최적화 방향을 방해하는지 확인

태그

#Sparse Gradient #AdaGrad #RMSProp #EMA #Adaptive Learning Rate

원문 읽기