本研究では、ConvoFusion と呼ばれる新しい対話ジェスチャー生成手法を提案している。ConvoFusion は、音声、テキスト、話者の特徴などの多様な入力情報を活用し、会話シチュエーションにおける自然で意味的に整合性のあるジェスチャーを生成する。
具体的には以下の特徴がある:
以上の手法と新規データセットにより、ConvoFusion は単一話者や対話シーンにおける高品質なジェスチャー生成を実現している。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Muhammad Ham... ที่ arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17936.pdfสอบถามเพิ่มเติม