本論文では、報酬の上限を設けない状況下でも最適な後悔界を持つ新しい強化学習アルゴリズムEXP4.Pを提案した。
主な内容は以下の通り:
EXP4アルゴリズムを拡張してEXP4.Pを提案した。EXP4.Pは、報酬の上限を設けない状況下でも最適な後悔界を持つことを理論的に示した。
EXP3.Pアルゴリズムについても、報酬の上限を設けない状況下での最適な後悔界を理論的に示した。これは新しい結果である。
報酬の上限を設けない状況下での後悔の下界も導出し、一定の時間horizon以下では後悔が線形オーダーになることを示した。
EXP4.Pアルゴリズムを強化学習に拡張し、探索を促進するアルゴリズムを提案した。実験では、探索が困難なゲームでの性能向上を示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Mengfan Xu,D... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2009.09538.pdfDeeper Inquiries