Presenting a convergence theorem for stochastic iterations, particularly Q-learning, under general, possibly non-Markovian, stochastic environments.
提案された新しい制御問題「ソフト拘束シュレディンガーブリッジ(SSB)」の理論的導出と解決策に焦点を当てる。