核心概念
DriveVLMは、大規模視覚言語モデルを活用して、複雑な走行環境における自動運転の理解と計画能力を大幅に向上させる。
摘要
本論文は、自動運転システムの新しいアプローチであるDriveVLMを提案している。DriveVLMは、大規模視覚言語モデル(VLM)を活用して、自動運転における複雑なシーン理解と計画能力を大幅に向上させる。
具体的には、DriveVLMは以下の3つのモジュールから構成される:
- シーン記述モジュール: 天候、時間、道路環境、車線状況などの走行環境を言語的に記述する。また、重要なオブジェクトを特定する。
- シーン分析モジュール: 特定したオブジェクトの特性と、それらがego車両に与える影響を分析する。
3.階層的計画モジュール: メタアクション、決定記述、軌道waypoint を段階的に生成する。
さらに、DriveVLMの限界である空間推論と計算コストの課題を解決するため、DriveVLM-Dualを提案している。DriveVLM-Dualは、DriveVLMと従来の自動運転パイプラインを融合し、双方の長所を活かしている。
具体的には、3Dパーセプションの結果をDriveVLMに組み込むことで空間理解能力を向上させ、さらに高速な軌道計画モジュールを統合することで、リアルタイム性を確保している。
また、本論文では、シーン理解と計画(SUP)タスクを定義し、評価指標を提案している。さらに、SUP-ADデータセットを構築し、DriveVLMとDriveVLM-Dualの性能を検証している。
実験結果より、DriveVLMは複雑な走行環境において優れた性能を発揮し、DriveVLM-Dualは最先端の自動運転手法を上回る計画精度を達成することが示された。
统计
天候が曇りの場合、視認性が低下し慎重な運転が必要となる。
夜間走行では視認性が低下するため、より慎重な運転が求められる。
都市部の交差点では、予期せぬ歩行者や自転車の飛び出しに注意が必要である。
右車線が通行不可能な場合、左車線を利用して慎重に走行する必要がある。
引用
"A primary hurdle of autonomous driving in urban envi-
ronments is understanding complex and long-tail scenar-
ios, such as challenging road conditions and delicate hu-
man behaviors."
"DriveVLM integrates a unique combination of chain-of-
thought (CoT) modules for scene description, scene analysis,
and hierarchical planning."
"DriveVLM-Dual achieves robust spatial understanding and real-time
inference speed."