Core Concepts
本稿では、低品質の静的データセットを用いたオフライン強化学習において、より効果的なポリシー学習を実現するハイパーキューブポリシー正規化フレームワークを提案する。
Abstract
オフライン強化学習におけるハイパーキューブポリシー正規化フレームワーク
本論文は、オフライン強化学習における新しいポリシー正規化手法である「ハイパーキューブポリシー正規化フレームワーク」を提案するものです。オフライン強化学習は、静的なデータセットを用いてエージェントを学習するため、環境との相互作用が不要であるという利点があります。しかし、既存のポリシー正規化手法は、データセットに含まれない状態行動ペア(out-of-distribution state actions: OOD状態行動)に対して脆弱であり、特に低品質のデータセットでは最適なポリシーを学習できないという問題がありました。
本研究は、低品質のデータセットを用いた場合でも、より効果的にポリシーを学習できるオフライン強化学習アルゴリズムを開発することを目的としています。