Centrala begrepp
本手法は、音声、テキスト、話者の特徴などの多様な入力情報を活用し、会話シチュエーションにおける自然で意味的に整合性のあるジェスチャーを生成する。さらに、ユーザーが特定の単語に注目してジェスチャーを強調することも可能にする。
Sammanfattning
本研究では、ConvoFusion と呼ばれる新しい対話ジェスチャー生成手法を提案している。ConvoFusion は、音声、テキスト、話者の特徴などの多様な入力情報を活用し、会話シチュエーションにおける自然で意味的に整合性のあるジェスチャーを生成する。
具体的には以下の特徴がある:
- 時間軸を考慮した潜在表現を学習することで、発話とジェスチャーの時間的な整合性を保ちつつ、永続的なジェスチャー生成を実現している。
- モダリティ単位のガイダンス手法を提案し、ユーザーが各モダリティの影響を調整できるようにしている。
- 特定の単語に注目してジェスチャーを強調する単語強調ガイダンス手法を提案し、テキストレベルでの細かな制御を可能にしている。
- 5人の参加者による対話シーンを収録した新規データセット「DND GROUP GESTURE」を公開し、マルチパーティ対話ジェスチャー生成の研究を推進している。
以上の手法と新規データセットにより、ConvoFusion は単一話者や対話シーンにおける高品質なジェスチャー生成を実現している。
Statistik
音声信号は発話の時間的特徴を表す。
テキストトークンは発話の意味的特徴を表す。
話者の特徴ベクトルは個人の癖やスタイルを表す。
能動的/受動的な発話状態を表すフラグ(m)は、会話の文脈を表す。