本研究では、ConvoFusion と呼ばれる新しい対話ジェスチャー生成手法を提案している。ConvoFusion は、音声、テキスト、話者の特徴などの多様な入力情報を活用し、会話シチュエーションにおける自然で意味的に整合性のあるジェスチャーを生成する。
具体的には以下の特徴がある:
以上の手法と新規データセットにより、ConvoFusion は単一話者や対話シーンにおける高品質なジェスチャー生成を実現している。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Muhammad Ham... a las arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17936.pdfConsultas más profundas