本論文では、LQR の直接的かつ適応的な学習手法を提案する。
まず、サンプル共分散に基づく新しいポリシーパラメータ化を提案する。これにより、ポリシーの次元が固定され、間接的な確実性等価 LQR と等価となる。これは、データを効率的に活用できることを意味する。
次に、このポリシーパラメータ化に基づき、オフラインデータを用いた DeePO (Data-Enabled Policy Optimization) アルゴリズムを提案する。DeePO は、射影勾配法を用いて最適 LQR ゲインを求める。理論解析により、DeePO が大域的に収束することを示す。
さらに、DeePO をオンラインクローズドループデータに適用することで、LQR の直接的かつ適応的な学習を実現する。理論解析により、入力が十分にパーシステントであり、ノイズが有界であれば、LQR コストの平均レグレットが O(1/√T) の速度で減少し、さらにSNRに反比例する定常バイアスが存在することを示す。
最後に、シミュレーションにより、提案手法の理論的結果を検証し、計算効率と標本効率の優位性を示す。
A otro idioma
del contenido fuente
arxiv.org
Consultas más profundas