本研究では、大規模言語モデル (LLM) を活用した自動運転の新しいフレームワークを提案している。従来の自動運転システムは、個別のモジュールを手動で組み合わせる「パイプライン型」と、エンドツーエンドの強化学習や模倣学習を用いる「エンドツーエンド型」に分類される。
提案手法では、まず視覚と LiDAR の入力を統合したマルチモーダルなトークン表現を構築する。次に、この統合表現をもとに、LLMに自動運転の言語プロンプトを与えることで、運転の記述と行動を生成させる。さらに、生成された出力と安全性チェックの結果に基づき、LLMに再度プロンプトを与えて修正を行う。最後に、報酬ガイド付き強化学習を用いて、LLMの出力精度を向上させる。
実験の結果、提案手法は、CARLA自動運転シミュレータにおいて、現状最高レベルの性能を達成した。LLMを活用することで、単なる経路予測だけでなく、運転の論理性や状況理解を学習できるため、より人間らしい自動運転の実現に寄与すると考えられる。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yiqun Duan,Q... klokken arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04869.pdfDypere Spørsmål