피드로 돌아가기
Hamilton-Jacobi-Bellman Equation: Reinforcement Learning and Diffusion Models
Hacker NewsHacker News
AI/ML

Bellman이 1952년 제안한 동적 프로그래밍의 HJB 방정식이 1840년대 물리학의 Hamilton-Jacobi 방정식과 동일한 구조를 가짐을 발견하여 강화학습과 확산 모델을 자연스럽게 연결한다

Hamilton-Jacobi-Bellman Equation: Reinforcement Learning and Diffusion Models

2026년 3월 30일19advanced

Context

순환 신경망 기반 비전 시스템은 시계열 의존성建模에 한계가 있어 장기 의사결정 최적화에 적합하지 않았다. 동적 프로그래밍은 이산 시간 Markov 결정 과정의Bellman 방정식으로 1950년대 초기화되었다.

Technical Solution

  • Bellman 방정식의 이산 시간 논리를 연속 시간으로 확장하여 h→0 극한을 취한다.
  • 확정적 시스템의 HJB 방정식 -∂tV(t,x) = H(t,x,∇xV(t,x))을 동적 계획법 원리로 유도한다.
  • Itô 확률미분방정식 dXt = f(Xt,at)dt + Σ(Xt,at)dWt에 대해Stochastic HJB를 구성한다.
  • Hamilton-Jacobi 방정식의 물리학적 구조와 동일한 PDE 형태임을 확인하여 연결한다.
  • 확산 모델의 학습을 확률적 최적 제어 관점으로 해석한다.

Impact

제약 충족 시 k* ≈ 0.0478로 수명 유틸리티의 유한성을 보장한다.

Key Takeaway

제어 이론과 생성 모델의 수학적 통합을 통해 확산 모델 훈련을 최적 제어 문제로 재해석할 수 있다.


확산 모델 학습 환경에서 HJB 방정식 기반 최적 제어를 적용 시 손실 함수 최소화 문제를 확률적 제어 문제로 전환하여 안정적 수렴을 달성한다

원문 읽기