本論文は、大規模言語モデル(LLM)と強化学習(RL)を組み合わせた新しいアプローチ「LLM4Teach」を提案している。LLM4Teachでは、LLMベースの教師エージェントが高レベルな行動指示を学生エージェントに提供し、学生エージェントはその指示を参考にしつつ環境からのフィードバックを活用して自律的に学習を進める。
具体的には以下の通り:
実験では、MiniGridやHabitatといった強化学習課題において、LLM4Teachが既存のRLベースの手法や単独のLLMベースの手法に比べて高いサンプル効率と性能を示すことを確認した。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania