Centrala begrepp
RISアルゴリズムの現在の制限に対処するために、マスクグラウンディング技術が導入され、従来の方法を大幅に改善します。
Statistik
マスク化されたテキストトークンとそれらに対応する視覚オブジェクト間の微細な対応関係を学習する必要性が示唆されています。
Citat
"Mask Grounding can indeed significantly improve language-image alignment in existing RIS models."
"MagNet achieves SOTA performance in all RIS benchmarks."