本研究では、大規模マルチモーダルモデル(LMM)の処理効率を向上させるため、視覚トークンの削減手法を提案している。
まず、LMMにおける視覚トークンの特性を分析し、多くの視覚トークンが冗長であることを発見した。そこで、クラストークンとの類似度に基づいて重要な視覚トークンを選択する適応的な手法(AITS)を提案した。さらに、選択された視覚トークンを類似度に基づいてクラスタリングし、クラスタ中心を更新することで、視覚情報を補完する手法(TS)を開発した。
実験の結果、LLaVA-1.5モデルに提案手法を適用したところ、平均して視覚トークンを14.4倍圧縮しつつ、VQAv2、ScienceQA、TextVQA、POPE、MMEなどの多様なベンチマークで同等以上の性能を達成できることが示された。さらに、提案手法はLLMの推論コストを大幅に削減できることが理論的に示された。
本研究は、大規模マルチモーダルモデルの効率化に向けて重要な知見を提供するものであり、視覚トークンの圧縮に関する今後の研究の基盤となることが期待される。
翻譯成其他語言
從原文內容
arxiv.org
深入探究