Kernkonzepte
大型視覺語言模型 (LVLMs) 中的物體幻覺主要源於跨模態對齊不足,而非視覺編碼能力缺陷,可透過插入可訓練的虛擬標記來改善。
論文概述
本論文旨在探討大型視覺語言模型 (LVLMs) 中的物體幻覺問題,並提出一個名為 PATCH 的新型微調策略來減輕這個問題。作者首先探討了物體幻覺的潛在原因,並透過實驗證明跨模態對齊不足才是主要原因,而非視覺編碼能力缺陷。基於此發現,作者提出了 PATCH,透過在圖像特徵和增強提示文本之間插入可訓練的虛擬標記,以更有效地利用視覺檢測信息,從而減輕物體幻覺。
研究方法
物體幻覺來源分析
作者假設了兩個造成物體幻覺的潛在來源:1) 視覺特徵提取不足,2) 跨模態整合時特徵解耦不足。為驗證此假設,作者使用 MiniGPT-v2 模型在 POPE 數據集上進行實驗。實驗結果顯示,當物體檢測結果正確但模型推理錯誤時,更容易發生物體幻覺,證明跨模態對齊不足才是主要問題。
PATCH 方法
為了解決跨模態對齊不足的問題,作者提出了 PATCH 方法。PATCH 在圖像特徵和檢測信息增強提示文本之間插入一組可訓練的虛擬標記。這些虛擬標記的嵌入在訓練過程中進行優化,幫助模型過濾和優化檢測信息的利用,從而改善視覺和文本表徵在語義空間中的對齊。
實驗結果
作者在兩個公開數據集 POPE 和 PhD 上進行實驗,比較 PATCH 與其他先進方法的性能。實驗結果顯示,PATCH 在物體幻覺檢測任務上顯著優於其他方法,證明了其有效性和泛化能力。
主要貢獻
從架構角度探討了 LVLMs 中物體幻覺的根本原因,揭示了跨模態整合過程中文本和視覺特徵解耦不足是造成幻覺的主要原因。
提出了一種名為 PATCH 的新型微調策略,幫助 LVLMs 更有效地利用視覺檢測信息來解決幻覺問題。
在兩個多模態幻覺評估數據集上驗證了 PATCH 在三個 LVLMs 上的有效性,並進一步探討了各種幻覺類型,證明了其在減輕幻覺方面的巨大潛力,特別是在處理問題中強烈的誤導性困難方面。
Statistiken
在 POPE 數據集上,PATCH 方法在 LLaVA-v1.5、MiniGPT-4 和 MiniGPT-v2 上的準確率分別提升了 5.03%、30.46% 和 6.70%。
使用 20 個虛擬標記時,PATCH 方法在 POPE 數據集上達到最佳準確率 90.03%,相較於基準配置提升了 6.70%。