피드로 돌아가기
Hacker NewsAI/ML
원문 읽기
Bellman이 1952년 제안한 동적 프로그래밍의 HJB 방정식이 1840년대 물리학의 Hamilton-Jacobi 방정식과 동일한 구조를 가짐을 발견하여 강화학습과 확산 모델을 자연스럽게 연결한다
Hamilton-Jacobi-Bellman Equation: Reinforcement Learning and Diffusion Models
AI 요약
Context
순환 신경망 기반 비전 시스템은 시계열 의존성 에 한계가 있어 장기 의사결정 최적화에 적합하지 않았다. 동적 프로그래밍은 이산 시간 Markov 결정 과정의Bellman 방정식으로 1950년대 초기화되었다.
Technical Solution
- Bellman 방정식의 이산 시간 논리를 연속 시간으로 확장하여 h→0 극한을 취한다.
- 확정적 시스템의 HJB 방정식 -∂tV(t,x) = H(t,x,∇xV(t,x))을 동적 계획법 원리로 유도한다.
- Itô 확률미분방정식 dXt = f(Xt,at)dt + Σ(Xt,at)dWt에 대해Stochastic HJB를 구성한다.
- Hamilton-Jacobi 방정식의 물리학적 구조와 동일한 PDE 형태임을 확인하여 연결한다.
- 확산 모델의 학습을 확률적 최적 제어 관점으로 해석한다.
Impact
제약 충족 시 k* ≈ 0.0478로 수명 유틸리티의 유한성을 보장한다.
Key Takeaway
제어 이론과 생성 모델의 수학적 통합을 통해 확산 모델 훈련을 최적 제어 문제로 재해석할 수 있다.
실천 포인트
확산 모델 학습 환경에서 HJB 방정식 기반 최적 제어를 적용 시 손실 함수 최소화 문제를 확률적 제어 문제로 전환하여 안정적 수렴을 달성한다
태그