Core Concepts
Temporal Difference法とQ学習は、過パラメータ化された2層ニューラルネットワークを用いることで、大域的に最適な特徴表現を学習できることが示された。
Abstract
本論文では、Temporal Difference法とQ学習の理論的解析を行っている。特に、過パラメータ化された2層ニューラルネットワークを用いた場合の特徴表現の最適化に焦点を当てている。
主な内容は以下の通り:
- Temporal Difference法とQ学習の平均場理論による解析を行い、特徴表現の大域的最適性と収束性を示した。
- 特徴表現は初期の表現から大きく変化し、最適な表現に収束することを明らかにした。これは従来の研究で示されていた、特徴表現が初期の表現に固定される「NTKレジーム」の制限を超えるものである。
- 提案手法は、Soft Q学習やポリシーグラジエントにも拡張可能であることを示した。
本研究の貢献は、深層強化学習における特徴表現の最適化メカニズムを理論的に解明したことにある。提案手法は、より高度な表現学習を可能にし、深層強化学習の性能向上につながると期待される。
Stats
強化学習の状態行動価値関数Qは、過パラメータ化された2層ニューラルネットワークで表現できる。
最適なQ関数Qは、パラメータ分布ρを用いて表現できる。
パラメータ分布ρtは、時間tとともに最適なρ*に収束する。
Quotes
"Temporal-difference and Q-learning play a key role in deep reinforcement learning, where they are empowered by expressive nonlinear function approximators such as neural networks."
"We prove that, utilizing an overparameterized two-layer neural network, temporal-difference and Q-learning globally minimize the mean-squared projected Bellman error at a sublinear rate."
"Moreover, the associated feature representation converges to the optimal one, generalizing the previous analysis of Cai et al. (2019) in the neural tangent kernel regime, where the associated feature representation stabilizes at the initial one."