本論文では、ロバストな強化学習のためのフレームワークを提案している。
まず、最適輸送コストに基づく不確実性集合を定義し、この集合に対する最悪値最適化問題を、状態空間上の摂動関数を用いて効率的に解くことを示した(定理1)。
次に、この最適輸送摂動を深層強化学習に適用する手法を提案した。具体的には、摂動ネットワークを学習し、観測された状態遷移に対して摂動を適用することで、ロバストなQ関数を効率的に学習できる。
実験では、連続制御タスクにおいて、提案手法が標準的な安全な強化学習手法と比べて、ロバストな性能と安全性を示した。特に、環境擾乱に対する安全性が大幅に向上しており、従来の敵対的強化学習手法や分布頑健な手法と比べても優れた結果を示した。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania