本研究では、ConvoFusion と呼ばれる新しい対話ジェスチャー生成手法を提案している。ConvoFusion は、音声、テキスト、話者の特徴などの多様な入力情報を活用し、会話シチュエーションにおける自然で意味的に整合性のあるジェスチャーを生成する。
具体的には以下の特徴がある:
以上の手法と新規データセットにより、ConvoFusion は単一話者や対話シーンにおける高品質なジェスチャー生成を実現している。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Muhammad Ham... om arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17936.pdfDiepere vragen