本論文は、大規模言語モデル(LLM)と強化学習(RL)を組み合わせた新しいアプローチ「LLM4Teach」を提案している。LLM4Teachでは、LLMベースの教師エージェントが高レベルな行動指示を学生エージェントに提供し、学生エージェントはその指示を参考にしつつ環境からのフィードバックを活用して自律的に学習を進める。
具体的には以下の通り:
実験では、MiniGridやHabitatといった強化学習課題において、LLM4Teachが既存のRLベースの手法や単独のLLMベースの手法に比べて高いサンプル効率と性能を示すことを確認した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zihao Zhou,B... at arxiv.org 04-23-2024
https://arxiv.org/pdf/2311.13373.pdfDeeper Inquiries