LiDARベースの3次元物体検出システムの誤検出を検知するために、ニューラルネットワークの初期層の活性化パターンを利用する。
大規模言語モデルを活用し、視覚と LiDAR の多様なモーダル入力を統合したトークン表現を構築することで、自動運転タスクの性能を向上させる。
カメラ運動の影響を排除し、物体運動モデルの信頼性を最大化するカルマンフィルターの再定式化によって、多物体追跡の性能を大幅に向上させる。
DriveVLMは、大規模視覚言語モデルを活用して、複雑な走行環境における自動運転の理解と計画能力を大幅に向上させる。