Belangrijkste concepten
多階建ての建物の3Dシーングラフを構築し、オープンボキャブラリーの特徴を活用することで、抽象的な言語クエリに基づいてロボットの移動を可能にする。
Samenvatting
本研究では、階層的オープンボキャブラリー3Dシーングラフ(HOV-SG)を提案している。HOV-SGは、オープンボキャブラリーのビジョン言語モデルを活用して、3Dセグメントレベルのマップを作成し、それをフロア、部屋、オブジェクトの概念で構成された階層的なシーングラフに変換する。
具体的には以下の通り:
- 3Dセグメントレベルのマップを作成し、オープンボキャブラリーの特徴を付与する
- フロア、部屋、オブジェクトの概念で構成された階層的なシーングラフを構築する
- 階層的なクエリ処理と経路計画を行うことで、抽象的な言語クエリに基づいたロボットの移動を実現する
HOV-SGは、ScanNetやReplica、Habitat Matterport 3D Semanticsデータセットで評価を行い、従来手法を上回る3Dセマンティックセグメンテーション精度や、階層的なオブジェクト検索精度を示した。また、実際のロボットを用いた実験でも、多階建ての環境での言語ベースのナビゲーションを実証した。
Statistieken
3Dセグメントの特徴を平均するのではなく、DBSCANクラスタリングを用いて代表的な特徴を選択することで、セマンティックセグメンテーション精度が向上した。
部屋の特徴を複数のカメラビューの特徴の組み合わせで表現することで、部屋のカテゴリ分類精度が向上した。
提案手法のシーングラフ表現は、従来手法と比べて平均75%のメモリ使用量の削減を実現した。
Citaten
"Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation"
"HOV-SG is able to represent multi-story buildings and allows robotic traversal of those using a cross-floor Voronoi graph."
"HOV-SG surpasses previous baselines in open-vocabulary semantic accuracy on the object, room, and floor level while producing a 75% reduction in representation size compared to dense open-vocabulary maps."