本論文では、OpenNeRFと呼ばれる新しいアプローチを提案しています。これは、ニューラルレディアンスフィールド(NeRF)ベースの3Dシーン表現を使用して、オープンセットの3Dセマンティック分割を実現するものです。
まず、ピクセル単位のVLM特徴をNeRFに直接エンコードすることで、複雑な追加モジュールを必要とせずに、高品質な分割マスクを生成できます。これは、LERF(Kerr et al., 2023)のようなアプローチと比較して、より単純な設計を実現しています。
さらに、NeRFの新規ビュー合成機能を活用して、分割性能をさらに向上させています。具体的には、複数のビューから得られる特徴の不一致を検出し、それに基づいて新規のカメラ位置を生成することで、見落とされていた領域の特徴を抽出しています。
実験の結果、OpenNeRFは、OpenScene(Peng et al., 2023)やLERFといった最新の手法と比べて、Replica datasetにおいて4.5ポイントもmIoUが高い性能を達成しています。特に、小型の長尾クラスの検出において優れた結果を示しています。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Francis Enge... om arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03650.pdfDiepere vragen