本論文は、多エージェント強化学習における新しいパラダイムである「個別化トレーニングと蒸留実行(PTDE)」を提案している。
まず、従来のCTDE(Centralized Training with Decentralized Execution)アプローチでは、大域情報を中央集中型の学習に活用するものの、実行時には大域情報を利用しないため、複雑な状況下での協調性能が制限されることが指摘された。
そこで本論文では、大域情報を各エージェントに個別化して提供する「Global Information Personalization (GIP)」モジュールを提案した。これにより、各エージェントの意思決定が改善され、全体としての協調性能が向上した。
しかし、大域情報を直接利用することは現実的な課題がある。そこで本論文は、大域情報を蒸留して各エージェントの局所情報に埋め込む「知識蒸留」アプローチを提案した。これにより、分散実行時の性能低下を最小限に抑えることができる。
全体として、PTDEパラダイムは、StarCraft II、Google Research Football、Learning to Rankなどの様々な環境で優れた性能を示し、アルゴリズムの汎用性も高いことが実証された。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы