本論文では、オープンソースコミュニティが開発したマルチモーダル大規模言語モデル「VITA」を紹介する。VITAは、ビデオ、画像、テキスト、オーディオの4つのモダリティを統一的に処理・分析できる初のオープンソースモデルである。
VITAの開発プロセスは以下の3段階から成る:
言語モデルの基礎となるMixtral 8x7Bのバイリンガル化: 中国語の語彙を拡張し、バイリンガルの教示チューニングを行うことで、中英両言語に精通するようにする。
マルチモーダルアライメントと教示チューニング: 個別のエンコーダーとコネクターを言語モデルに接続し、ビデオ、画像、オーディオの各モダリティとの整合性を取る。さらに、状態トークンを導入することで、テキストやオーディオの入力クエリを自動的に識別できるようにする。
デュプレックスパイプラインによる開発: 2つのVITAモデルを同時に稼働させ、一方がユーザーの質問に応答し、もう一方が環境音を監視する。これにより、ウェイクアップワードなしの自発的な対話や、発話中の割り込み対応が可能となる。
VITAは、オープンソースコミュニティにおける初の試みとして、マルチモーダルな理解と対話の統合に向けた基盤を提供する。現時点では、クローズドソースのモデルには及ばないものの、今後の発展に大きな期待がかかっている。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések