本論文は、自動運転システムの新しいアプローチであるDriveVLMを提案している。DriveVLMは、大規模視覚言語モデル(VLM)を活用して、自動運転における複雑なシーン理解と計画能力を大幅に向上させる。
具体的には、DriveVLMは以下の3つのモジュールから構成される:
さらに、DriveVLMの限界である空間推論と計算コストの課題を解決するため、DriveVLM-Dualを提案している。DriveVLM-Dualは、DriveVLMと従来の自動運転パイプラインを融合し、双方の長所を活かしている。
具体的には、3Dパーセプションの結果をDriveVLMに組み込むことで空間理解能力を向上させ、さらに高速な軌道計画モジュールを統合することで、リアルタイム性を確保している。
また、本論文では、シーン理解と計画(SUP)タスクを定義し、評価指標を提案している。さらに、SUP-ADデータセットを構築し、DriveVLMとDriveVLM-Dualの性能を検証している。
実験結果より、DriveVLMは複雑な走行環境において優れた性能を発揮し、DriveVLM-Dualは最先端の自動運転手法を上回る計画精度を達成することが示された。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Xiaoyu Tian,... às arxiv.org 04-02-2024
https://arxiv.org/pdf/2402.12289.pdfPerguntas Mais Profundas