核心概念
大規模言語モデルの知識を活用することで、少ないデータで特化した強化学習エージェントを効率的に訓練できる。
要約
本論文は、大規模言語モデル(LLM)と強化学習(RL)を組み合わせた新しいアプローチ「LLM4Teach」を提案している。LLM4Teachでは、LLMベースの教師エージェントが高レベルな行動指示を学生エージェントに提供し、学生エージェントはその指示を参考にしつつ環境からのフィードバックを活用して自律的に学習を進める。
具体的には以下の通り:
- LLMベースの教師エージェントは、観察した状況に応じて利用可能な行動オプションとその確率分布を出力する。
- 学生エージェントは、教師の指示と環境からのフィードバックの両方を考慮しながら、徐々に自律的な行動を学習していく。
- 訓練の初期段階では教師の指示に大きく依存するが、訓練が進むにつれて環境からのフィードバックを重視するようになる。
- この結果、学生エージェントは教師エージェントを上回る性能を発揮できるようになる。
実験では、MiniGridやHabitatといった強化学習課題において、LLM4Teachが既存のRLベースの手法や単独のLLMベースの手法に比べて高いサンプル効率と性能を示すことを確認した。
統計
学生エージェントのモデルサイズはLLMに比べて大幅に小さい(MiniGridで24K、Habitatで10M)。
LLM4Teachは、LLMベースの手法に比べて高い課題達成率を示す。