Core Concepts
現在のオフライン強化学習アルゴリズムは、異なる形式のデータ破損に脆弱であり、特にダイナミクスの破損に対して挑戦をもたらす。Robust IQL(RIQL)は、観測正規化、Huber損失、および分位数Q推定器を組み合わせて、さまざまな種類のデータ破損に対する優れた頑健性を実証しています。
Stats
ダイナミクス攻撃下でIQLは26.7±0.7の平均スコアを達成した。
平均スコア改善率:RIQLはIQLに比べて37.6%向上。
Quotes
"Robust IQL (RIQL) demonstrates superior performance compared to other baselines, achieving an average score improvement of 37.6% over IQL."
"RIQL consistently surpasses other baselines by a significant margin under adversarial corruption."