本論文は、観察データのみから潜在行動を推定し、それを模倣することで、効率的にエキスパートレベルのポリシーを学習する手法「Latent Action Policies (LAPO)」を提案している。
具体的には以下の通り:
逆動力学モデル(IDM)と順動力学モデル(FDM)を用いて、観察データから潜在行動を推定する。IDMは過去と未来の観察データから潜在行動を予測し、FDMはその潜在行動と過去の観察データから次の観察データを予測する。この2つのモデルを同時に学習することで、潜在行動が観察データの遷移を説明するように学習される。
学習した IDMを用いて、観察データに潜在行動ラベルを付与する。その後、行動模倣学習により、潜在行動ポリシーを学習する。
学習した潜在行動ポリシーを、少量の行動ラベルデータを用いて真の行動空間にデコードする。あるいは、オンラインの環境と相互作用しながら、強化学習によってデコードする。
実験では、Procgen ベンチマークの16のタスクで評価を行い、提案手法が効率的に高性能なポリシーを学習できることを示している。特に、わずか4M ステップの強化学習で、エキスパートレベルの性能を超えるポリシーを得られることを示している。また、学習された潜在行動空間の構造が、真の行動空間と高い整合性を持つことも確認している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Dominik Schm... at arxiv.org 03-28-2024
https://arxiv.org/pdf/2312.10812.pdfDeeper Inquiries