Heron-Benchは、ビジョン言語モデルの日本語理解能力を包括的に評価するための新しいベンチマークである。日本の文化的背景を反映した画像と質問から構成され、閉鎖型モデルと公開型モデルの性能を比較することで、日本語理解の現状と課題を明らかにする。
ビジョン言語モデルの推論能力を向上させるため、大規模言語モデルが生成したプログラムと視覚ツールの能力を蒸留する手法を提案する。