本研究は、RGB-Tシーンパーシングのための新しいハイブリッド非対称ネットワークHAPNetを提案している。
まず、RGB-Tデータの特徴を効果的に抽出するために、VFMと軽量CNNからなる非対称エンコーダを開発した。VFMはRGB画像の大域的な意味情報を捉え、CNNはRGB-Tデータの局所的な空間パターンを抽出する。
次に、これらの異種特徴を段階的に融合するPHFIを提案した。PHFIは大域的コンテキストと局所的意味情報を効果的に組み合わせる。
さらに、局所的意味情報をさらに強化する補助タスクを導入し、全体的なシーンパーシング性能を向上させた。
提案手法HAPNetは、3つの公開RGB-Tデータセットで最高のパフォーマンスを達成し、RGB-HHAデータセットでも良好な一般化性を示した。これは、VFMと非対称設計を活用することで、RGB-Tデータの特徴を効果的に抽出・融合できることを示している。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Jiahang Li,P... om arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03527.pdfDiepere vragen