本稿では、最終的な分子構造だけでなく、分子全体の軌跡を最適化する、新しい強化学習フレームワークを提案する。これは、従来の手法では困難であった、複雑なエネルギー地形における局所的な最小値を回避し、より効果的に最適な分子構造を発見することを可能にする。
カリキュラム強化学習は、徐々に難易度の高いタスクに移行することで、複雑なタスクの解決を可能にする。最適輸送の枠組みを用いることで、タスク間の類似性を適切に考慮したカリキュラムを生成できる。
報酬の上限を設けない状況下でも最適な後悔界を持つ新しい強化学習アルゴリズムEXP4.Pを提案し、その性能を理論的・実験的に示した。
確率的ポリシーグラジエントを用いて、最適な決定論的ポリシーを学習することができる。
制約付き正規化流れ方策は、安全性と解釈可能性を兼ね備えた強化学習のための新しい方策モデルである。この方策は、ドメイン知識を活用して制約を満たす行動を生成することができ、学習中も制約を順守する。
大規模言語モデルの知識を活用することで、少ないデータで特化した強化学習エージェントを効率的に訓練できる。
政策勾配法の基本的なアルゴリズムである投影型政策勾配法、ソフトマックス政策勾配法、ソフトマックス自然勾配法について、割引MDPの設定下で、様々な新しい収束性の結果が示された。
Temporal Difference法とQ学習は、過パラメータ化された2層ニューラルネットワークを用いることで、大域的に最適な特徴表現を学習できることが示された。
観察データのみから潜在行動を推定し、それを模倣することで、効率的にエキスパートレベルのポリシーを学習する。
現在のオフライン強化学習アルゴリズムは、異なる形式のデータ破損に脆弱であり、特にダイナミクスの破損に対して挑戦をもたらす。Robust IQL(RIQL)は、観測正規化、Huber損失、および分位数Q推定器を組み合わせて、さまざまな種類のデータ破損に対する優れた頑健性を実証しています。