本論文は、大規模言語モデル(LLM)と強化学習(RL)を組み合わせた新しいアプローチ「LLM4Teach」を提案している。LLM4Teachでは、LLMベースの教師エージェントが高レベルな行動指示を学生エージェントに提供し、学生エージェントはその指示を参考にしつつ環境からのフィードバックを活用して自律的に学習を進める。
具体的には以下の通り:
実験では、MiniGridやHabitatといった強化学習課題において、LLM4Teachが既存のRLベースの手法や単独のLLMベースの手法に比べて高いサンプル効率と性能を示すことを確認した。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Zihao Zhou,B... ที่ arxiv.org 04-23-2024
https://arxiv.org/pdf/2311.13373.pdfสอบถามเพิ่มเติม