本論文は、動画質問応答(VideoQA)の課題に取り組むため、言語対応の目的指向ビジュアル認識と答案生成を提案する「VideoDistill」フレームワークを紹介する。
まず、言語対応ゲート(LA-Gate)と呼ばれる新しい相互作用メカニズムを導入する。LA-Gateは、言語情報を直接ビジュアル表現に融合させずに、ビジョンと言語の相互作用を実現する。
次に、LA-Gateを2つのモジュールに組み込む。1つ目は、質問関連のフレームを選択的にサンプリングする微分可能なスパースサンプリングモジュールである。これにより、長期依存性や複数イベントの推論を自然に回避できる。2つ目は、マルチスケールの質問関連ビジュアルセマンティクスを強調する視覚リファインメントモジュールである。
実験の結果、VideoDistillは様々な動画質問応答ベンチマークで最先端の性能を達成し、特に長尺動画や物体関連の質問で優れた結果を示した。また、言語バイアスの問題を効果的に軽減できることも確認された。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Bo Zou,Chao ... um arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00973.pdfTiefere Fragen