本手法は、音声、テキスト、話者の特徴などの多様な入力情報を活用し、会話シチュエーションにおける自然で意味的に整合性のあるジェスチャーを生成する。さらに、ユーザーが特定の単語に注目してジェスチャーを強調することも可能にする。