マルチモーダル大規模言語モデル(MLLM)は、極めて類似した画像間の微細な視覚的違いを独立して検出し、それを記述することが困難である。
大規模言語モデルと視覚モデルを融合した視覚言語モデルは、画像キャプショニングや視覚質問応答などの複雑なタスクに優れた性能を発揮する。本論文では、これらの視覚言語モデルを理解・生成能力に基づいて3つのカテゴリに分類し、各モデルの特徴や性能を詳細に分析する。
BRAVEは、複数の視覚エンコーダから特徴を統合することで、視覚言語モデルの性能を大幅に向上させる。
視覚言語モデルを使用して、人間が理解可能な概念に基づいてビジョンモデルを分析する手法を提案する。
大規模な言語モデルによる細粒度カテゴリの記述を活用することで、視覚言語モデルのゼロショット分類性能を大幅に向上させることができる。
反復学習を用いることで、大規模な視覚言語モデルの合成性を向上させることができる。