本研究では、カリキュラム強化学習の課題に取り組んでいる。カリキュラム強化学習は、徐々に難易度の高いタスクに移行することで、複雑なタスクの解決を可能にする手法である。
既存のカリキュラム生成手法には課題があり、タスク間の類似性を適切に考慮できないことが指摘されている。
そこで本研究では、最適輸送の枠組みを用いることで、タスク間の類似性を適切に考慮したカリキュラムを生成する手法を提案している。
具体的には、2つのアルゴリズム、CURROT とGRADIENTを提案している。CURROTは、エージェントの現在の能力に基づいて、タスク分布を徐々に変化させていく。一方、GRADIENTは、初期タスク分布と目標タスク分布の間の線形補間を行う。
実験では、離散・連続のタスク空間、ユークリッド距離・非ユークリッド距離のタスク間距離関数を持つ環境で、提案手法の有効性を示している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Pascal Klink... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2309.14091.pdfDeeper Inquiries