本研究では、ConvoFusion と呼ばれる新しい対話ジェスチャー生成手法を提案している。ConvoFusion は、音声、テキスト、話者の特徴などの多様な入力情報を活用し、会話シチュエーションにおける自然で意味的に整合性のあるジェスチャーを生成する。
具体的には以下の特徴がある:
以上の手法と新規データセットにより、ConvoFusion は単一話者や対話シーンにおける高品質なジェスチャー生成を実現している。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Muhammad Ham... lúc arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17936.pdfYêu cầu sâu hơn