本研究では、ConvoFusion と呼ばれる新しい対話ジェスチャー生成手法を提案している。ConvoFusion は、音声、テキスト、話者の特徴などの多様な入力情報を活用し、会話シチュエーションにおける自然で意味的に整合性のあるジェスチャーを生成する。
具体的には以下の特徴がある:
以上の手法と新規データセットにより、ConvoFusion は単一話者や対話シーンにおける高品質なジェスチャー生成を実現している。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Muhammad Ham... às arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17936.pdfPerguntas Mais Profundas