本研究では、TinyVLAと呼ばれる新しいコンパクトなビジョン言語行動モデルを提案している。TinyVLAは以下の2つの主要な利点を持つ:
高速な推論速度: 既存のビジョン言語行動モデルは大規模なビジョン言語モデルに依存しているため、推論が非常に遅い。TinyVLAは小規模な高速マルチモーダルモデルを使用することで、大幅な推論速度の向上を実現している。
優れたデータ効率: 既存のビジョン言語行動モデルは大規模なロボットデータセットの事前学習を必要としていたが、TinyVLAはそのような事前学習なしでも高い性能を発揮できる。
TinyVLAの主な特徴は以下の通り:
高速マルチモーダルモデルの活用: TinyVLAは、ロバストで高速なマルチモーダルモデルを初期化に使用することで、推論速度を大幅に向上させている。
ディフュージョンポリシーデコーダの統合: TinyVLAは、ディフュージョンポリシーデコーダを使用することで、自動回帰的なアクショントークン生成を回避し、より正確なロボットアクションを出力できるようになっている。
実験の結果、TinyVLAは既存のビジョン言語行動モデルであるOpenVLAと比較して、大幅な推論速度の向上と同等以上の性能を示すことができた。さらに、TinyVLAは言語命令、新しいオブジェクト、未知の位置、外観の変化、背景の変化、環境の変化などに対する優れた汎化性を示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Junjie Wen, ... at arxiv.org 09-20-2024
https://arxiv.org/pdf/2409.12514.pdfDeeper Inquiries