本研究では、OmniControlと呼ばれる新しい手法を提案している。OmniControlは、テキストプロンプトと柔軟な空間制御信号を入力として、人間の動作を生成することができる。従来の手法は、主に骨盤の軌道のみを制御することができたが、OmniControlは任意の関節の任意の時間における空間制御信号を扱うことができる。
具体的には、OmniControlは以下の2つの特徴を持つ:
空間ガイダンス: 生成された動作を直接グローバル座標系に変換し、入力された空間制御信号との誤差を最小化するように動作を修正する。これにより、相対的な人体姿勢表現の問題を解決し、任意の関節を柔軟に制御できるようになる。
現実性ガイダンス: 動作生成モデルの各注意層の特徴に対して、空間制御信号に基づいて修正を加える。これにより、空間制御に従いつつ、全身の動作の整合性と現実性を維持することができる。
これら2つのガイダンスは相補的であり、空間制御の正確性と動作の現実性のバランスを取ることができる。
実験では、HumanML3DおよびkIT-MLデータセットにおいて、従来手法を大幅に上回る性能を示した。特に、単一のモデルで任意の関節を制御できることが示された。これにより、動作と周辺オブジェクトとの連携など、様々な応用が期待できる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問