피드로 돌아가기
Hamilton-Jacobi-Bellman Equation: Reinforcement Learning and Diffusion Models
Hacker NewsHacker News
AI/ML

Bellman이 1952년 제안한 동적 프로그래밍의 HJB 방정식이 1840년대 물리학의 Hamilton-Jacobi 방정식과 동일한 구조를 가짐을 발견하여 강화학습과 확산 모델을 자연스럽게 연결한다

Hamilton-Jacobi-Bellman Equation: Reinforcement Learning and Diffusion Models

2026년 3월 30일19advanced

Context

순환 신경망 기반 비전 시스템은 시계열 의존성 에 한계가 있어 장기 의사결정 최적화에 적합하지 않았다. 동적 프로그래밍은 이산 시간 Markov 결정 과정의Bellman 방정식으로 1950년대 초기화되었다.

Technical Solution

  • Bellman 방정식의 이산 시간 논리를 연속 시간으로 확장하여 h→0 극한을 취한다.
  • 확정적 시스템의 HJB 방정식 -∂tV(t,x) = H(t,x,∇xV(t,x))을 동적 계획법 원리로 유도한다.
  • Itô 확률미분방정식 dXt = f(Xt,at)dt + Σ(Xt,at)dWt에 대해Stochastic HJB를 구성한다.
  • Hamilton-Jacobi 방정식의 물리학적 구조와 동일한 PDE 형태임을 확인하여 연결한다.
  • 확산 모델의 학습을 확률적 최적 제어 관점으로 해석한다.

Impact

제약 충족 시 k* ≈ 0.0478로 수명 유틸리티의 유한성을 보장한다.

Key Takeaway

제어 이론과 생성 모델의 수학적 통합을 통해 확산 모델 훈련을 최적 제어 문제로 재해석할 수 있다.


확산 모델 학습 환경에서 HJB 방정식 기반 최적 제어를 적용 시 손실 함수 최소화 문제를 확률적 제어 문제로 전환하여 안정적 수렴을 달성한다

원문 읽기