本論文では、非確率的オンラインコントロール(NSC)の枠組みにおいて、予測オラクルの情報を活用するオプティミスティックなアルゴリズムを提案している。
具体的には以下の通り:
NSCの問題設定を、メモリを持つ最適化問題として定式化する。状態遷移と線形化された目的関数を用いて、過去のd ステップの制御入力の関数として表現する。
この定式化を、遅延フィードバックを持つ最適化問題(OCO-D)に帰着させる。これにより、オプティミスティックな更新則(OptFTRL-C)を設計できる。
OptFTRL-Cのレグレット解析を行い、予測精度に応じて、定数オーダーからO(√T)のレグレット上界を得る。すなわち、予測が正確であれば定数オーダーのレグレットを達成し、予測が不正確な場合でも最適オーダーのレグレットを保証する。
数値実験により、提案手法がベースラインのGPCアルゴリズムに比べて優れた性能を示すことを確認した。特に、予測精度が高い場合に大幅な性能向上が得られることを示した。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Naram Mhaise... om arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03309.pdfDiepere vragen