本論文は、画像キャプション生成のための新しい手法TIPCapを提案している。
4つの異なるデータ設定を考慮し、統一的なソリューションを提案している。これにより、様々な現実世界のシナリオに対応可能となる。
マッピングモジュールでは、特徴量の相関を考慮した多変量ガウス分布を用いることで、モダリティギャップを効果的に緩和している。逆マッピングモジュールにより、より堅牢な性能を実現している。
プロンプト対話モジュールにより、ユーザ指定のプロンプト情報を活用してキャプションの品質を向上させることができる。
実験の結果、提案手法TIPCapが既存の弱教師あるいは教師なしの手法を大きく上回る性能を示し、新しい最先端の性能を達成している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yiyu Wang,Ha... at arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19193.pdfDeeper Inquiries