核心概念
VLMの2Dピクセル表現を3D点群に転移する際、点群の幾何学的構造を活用することで、より高品質な表現を得ることができる。
摘要
本論文は、ゼロショット3D点群理解のための新しい手法GeoZeを提案している。GeoZeは、VLM(Vision-Language Model)の2Dピクセル表現を3D点群に転移する際に、点群の幾何学的構造を活用することで、より高品質な表現を得ることができる。
具体的には以下の手順で行う:
- 点群をスーパーポイントにクラスタリングし、各スーパーポイントに幾何学的特徴量とVLM表現を割り当てる。
- 各スーパーポイントの近傍情報を用いて、VLM表現をローカルに集約する。
- スーパーポイント間の幾何学的類似性に基づいて、VLM表現をグローバルに集約する。
- スーパーポイントの情報を元の点群に伝播させ、VLM表現アンカーを用いて最終的な点群表現を得る。
提案手法GeoZeは、物体分類、部分セグメンテーション、セマンティックセグメンテーションの各タスクにおいて、従来手法を大幅に上回る性能を示した。
统计
点群の幾何学的特徴量と点群座標の類似性に基づいて、スーパーポイントの重み付け集約を行う。
スーパーポイント間の幾何学的類似性に基づいて、VLM表現のグローバル集約を行う。