本研究では、極めて類似した画像ペアからなるD3ベンチマークを提案する。各画像ペアには1つの顕著な視覚的違いが存在し、モデルはその違いを検出し、各画像を一意に記述して識別することが求められる。
自己検索を用いた評価により、現行のMMLLMは微細な視覚的違いを捉えることに苦戦していることが明らかになった。特に、オープンソースのMMLLMは、ランダムな推測を上回ることができなかった。一方、クローズドソースのMMLLMの中では、Claude Sonnet 3.5が最も良好な成績を収めた。
本研究の結果は、MMLLMの視覚理解能力の限界を示唆しており、より強力な視覚評価ベンチマークの必要性を示唆している。今後の課題としては、ベンチマークの規模拡大や、より高度な視覚理解を評価する手法の開発が考えられる。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania