Core Concepts
3D大規模言語モデルの命令フォロー能力を強化するため、ロバストな命令生成エンジンを用いて大規模な命令フォロー データを生成し、モデルの空間理解と物体参照・接地能力を向上させた。
Abstract
本研究では、3D大規模言語モデルの命令フォロー能力を強化するため、以下の取り組みを行った。
- ロバストな命令生成エンジン(RIG)を開発し、1百万件の命令フォローデータを生成した。このデータには、ベンチマークデータ、敵対的データ、多様なデータが含まれる。
- 敵対的データには、物体レベルと場面レベルの4つの新しいタスクが含まれ、モデルの弁別能力を高める。
- 多様なデータには、既存のタスクをさまざまな言語スタイルに書き換えたものが含まれ、モデルの一般化能力を向上させる。
- モデルに「関係拡張プロジェクター」を導入し、物体間の空間関係理解を強化した。
- 「ID-特徴結合」を導入し、物体IDと特徴の関係を強化することで、物体参照と接地能力を向上させた。
- 5つの3Dマルチモーダル学習ベンチマークで、従来手法を大きく上回る性能を達成した。特に、物体参照タスクでは7.8%、キャプショニングタスクでは6.9%の改善を示した。
Stats
3Dシーンに存在する物体の正誤を判断する質問に対し、正しい物体IDを提示できる。
3Dシーンの物体の位置関係を正確に説明できる。
3Dシーンの物体の属性を正確に説明できる。
Quotes
"ロバストな命令生成エンジン(RIG)を開発し、1百万件の命令フォローデータを生成した。"
"関係拡張プロジェクターを導入し、物体間の空間関係理解を強化した。"
"ID-特徴結合を導入し、物体IDと特徴の関係を強化することで、物体参照と接地能力を向上させた。"