Centrala begrepp
提出了一个系统设计的客观基准MMBench,用于对视觉语言模型进行全面、稳健的评估。
Sammanfattning
本文提出了MMBench,这是一个用于评估视觉语言模型多模态能力的基准。MMBench包含超过3000个多选题,涵盖20个不同的能力维度,如物体定位和社交推理。为了提高评估的稳健性和准确性,作者提出了一种名为CircularEval的新评估策略,并采用GPT-4作为选项提取器。作者对21个知名的视觉语言模型进行了全面评估,结果提供了有价值的见解,有助于未来的优化。主要贡献包括:1)系统构建了评估数据集;2)提出了CircularEval评估策略和基于GPT-4的选项提取方法;3)进行了全面的模型评估并分析了结果。
Statistik
在CircularEval评估中,大多数视觉语言模型的准确率较VanillaEval下降了10%以上。
采用更强大的语言模型(如从Vicuna-v1.5切换到InternLM2-20B)可以显著提升视觉语言模型在各个能力维度上的表现。
在MMBench-CN上,大多数视觉语言模型的表现略低于MMBench,最大差距不超过2%。
Citat
"MMBench是一个系统设计的客观评估基准,用于对视觉语言模型进行全面、稳健的评估。"
"CircularEval是一种更加严格的评估策略,可以产生可靠的评估结果,同时成本较低。"
"采用GPT-4作为选项提取器可以提高评估的准确性,特别是对于指令跟随能力有限的视觉语言模型。"