Mask4Formerは、LiDARポイントクラウドの時系列シーケンスに対して、セマンティックインスタンスセグメンテーションとトラッキングを単一のモデルで統合的に行う、変換器ベースのアプローチである。
本研究は、3D点群データの効率的な処理のためにGPU上でのスパースコンボリューション演算の最適化に取り組んでいる。特に、CUDA技術を活用し、スパースデータの特性に合わせた高速な演算手法を提案している。
VLMの2Dピクセル表現を3D点群に転移する際、点群の幾何学的構造を活用することで、より高品質な表現を得ることができる。