本論文では、最大エントロピー微分動的計画法(ME-DDP)をTsallisエントロピーを用いて一般化した手法を提案している。
まず、Tsallisエントロピーの定義と性質について説明している。Tsallisエントロピーは、Shannon エントロピーの一般化であり、q-Gaussianという重い裾野を持つ分布を導出することができる。
次に、ME-DDPの最適化問題にTsallisエントロピーを導入し、最適制御ポリシーとして q-Gaussianを導出している。この q-Gaussianの分散は、価値関数に応じて自動的にスケーリングされる特徴を持つ。これにより、必要に応じて効果的な探索を行うことができる。
一方、Tsallisエントロピーを用いた場合、Shannon エントロピーの場合のようなマルチモーダルなポリシーは得られないことを示している。
最後に、2つのロボットシステムを用いた数値実験を行い、提案手法がShannon エントロピーを用いたME-DDPよりも優れた探索性能を示すことを確認している。特に、提案手法は探索パラメータの調整が容易であることも示されている。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania