本研究は、単一視点シーンポイントクラウドから人間の把握を生成する新しいタスクを探索しています。従来の手法は完全な3Dオブジェクトモデルに依存していましたが、現実世界では物体は単一視点からしか観察されないことが多く、物体の不完全性と周辺シーンの影響により、生成された把握が物体に侵入したり、シーンと衝突したりする問題がありました。
本研究では、S2HGraspと呼ばれる新しいフレームワークを提案しています。S2HGraspは2つの主要なモジュールから構成されています:
Global Perception モジュール: 部分的なオブジェクトポイントクラウドを大域的に認識し、生成された手が物体の見えない部分に侵入するのを防ぐ。
DiffuGrasp モジュール: 複雑な入力(シーンポイントを含む)に基づいて高品質な人間の把握を生成する。
さらに、本研究では単一視点シーンポイントクラウドのための新しいデータセットS2HGDを構築しました。
実験結果は、S2HGraspが既存の手法よりも優れた性能を示し、自然で物理的に妥当な把握を生成できることを示しています。また、S2HGraspは未知のオブジェクトに対しても優れた一般化性能を発揮しています。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies