Core Concepts
政策勾配法の基本的なアルゴリズムである投影型政策勾配法、ソフトマックス政策勾配法、ソフトマックス自然勾配法について、割引MDPの設定下で、様々な新しい収束性の結果が示された。
Abstract
本論文では、強化学習の基本モデルであるマルコフ決定過程(MDP)における政策最適化手法の収束性について、体系的な研究が行われている。
主な結果は以下の通り:
- 投影型政策勾配法(PPG)は、任意の一定ステップサイズで大域的線形収束する。
- ソフトマックス政策勾配法(PG)は、任意の一定ステップサイズで部分線形収束する。
- ソフトマックス自然勾配法(NPG)は、任意の一定ステップサイズで大域的線形収束する。
- エントロピー正則化ソフトマックス政策勾配法は、既存の結果よりも広いステップサイズ範囲で大域的線形収束する。
- エントロピー正則化自然勾配法は、局所的に逼迫した線形収束率を持つ。
- 最適政策の定常分布に関する仮定なしに、ソフト政策反復の新しい局所二次収束率が示された。
これらの結果を導くために、新しく基本的な分析手法が開発された。
Stats
最適行動価値関数A*(s,a)は、[0,1/(1-γ)]の範囲にある。
最適行動価値関数A*(s,a)と行動価値関数Aπ(s,a)の差は、状態価値関数V*(s)とV π(s)の差以下である。
最適行動集合A*_sと非最適行動確率b π_sを用いて、状態価値関数の誤差は非最適行動確率と同オーダーである。
Quotes
政策最適化は、価値反復や政策反復などの価値ベースの手法とは対照的に、パラメータ化された政策クラスの中で直接探索を行う手法である。
エントロピー正則化は、探索能力を高めるために導入される重要なパラディグムである。