本論文は、オープンボキャブラリー検出とセグメンテーションに関する最新の研究動向を包括的に調査したものである。
まず、ゼロショット検出・セグメンテーションと呼ばれる手法について説明する。これらの手法は、未知のクラスの物体を検出・セグメンテーションするために、視覚特徴と言語特徴の写像学習や、未知クラスの視覚特徴の合成を行う。
次に、オープンボキャブラリー検出とセグメンテーションについて詳述する。これらの手法は、弱教師信号(画像-テキストペアや大規模視覚言語モデル)を活用することで、未知のクラスの物体も検出・セグメンテーションできるようになった。具体的には、領域-単語の弱教師付き整合化、擬似ラベリング、知識蒸留、転移学習などの手法が提案されている。
さらに、3Dシーンや動画理解などの拡張タスクについても言及する。これらのタスクでも、大規模な視覚言語モデルが重要な役割を果たしている。
最後に、今後の有望な研究方向性を示す。オープンボキャブラリー検出とセグメンテーションは、実世界アプリケーションにおける重要な技術となることが期待される。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Chaoyang Zhu... kl. arxiv.org 04-16-2024
https://arxiv.org/pdf/2307.09220.pdfDybere Forespørgsler