本論文では、組み合わせバンディット問題において、各ラウンドでの切り替えコストを考慮した最適化手法を提案している。
まず、バンディットフィードバックとセミバンディットフィードバックの2つの設定において、最小最大レグレットの下限を導出している。バンディットフィードバックの場合、下限は ˜Ω((λK)1/3(TI)2/3)、セミバンディットフィードバックの場合は ˜Ω((λKI)1/3T2/3)となる。
次に、これらの下限に近づくアルゴリズムを提案している。バンディットフィードバックの場合は、BATCHED-EXP2アルゴリズムを提案し、レグレット上限は ˜O((λK)1/3T2/3I4/3)となる。セミバンディットフィードバックの場合は、BATCHED-BROADアルゴリズムを提案し、レグレット上限は ˜O((λK)1/3(TI)2/3 + KI)となる。
提案アルゴリズムは、切り替えコストを考慮しつつ、最小最大レグレットの下限に近づくことが示されている。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yanyan Dong,... kl. arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01883.pdfDybere Forespørgsler