Centrala begrepp
现有的说话头合成方法存在同步性问题,包括人物身份、嘴唇运动、面部表情和头部姿态等方面。SyncTalk通过Face-Sync Controller、Head-Sync Stabilizer和Portrait-Sync Generator三个模块,有效解决了这些同步性问题,生成了高度同步和逼真的说话头视频。
Sammanfattning
本文提出了SyncTalk,这是一种基于神经辐射场(NeRF)的高度同步的语音驱动说话头合成方法。SyncTalk包含三个主要模块:
-
Face-Sync Controller:
- 使用预训练的音视频编码器,确保嘴唇运动与语音高度同步。
- 采用3D面部表情模型,精确控制面部表情,如眉毛、额头和眼睛区域的动作。
- 引入面部感知遮罩注意力机制,减少嘴唇运动和表情之间的干扰。
-
Head-Sync Stabilizer:
- 使用头部运动跟踪器获取粗略的头部姿态参数。
- 引入关键点跟踪和束调整方法,优化头部姿态,实现平稳连续的头部运动。
-
Portrait-Sync Generator:
- 修复NeRF建模中的细节缺失,如头发和背景等。
- 将生成的头部与原始视频中的躯干部分无缝融合。
通过大量实验和用户研究,SyncTalk在同步性和逼真度方面显著优于现有方法,并且能够以50 FPS的速度生成高分辨率的说话头视频。
Statistik
我们的方法可以以50 FPS的速度生成高分辨率的说话头视频。
与现有最佳方法相比,我们在LPIPS指标上有3倍的改善。
我们在用户研究中的视频真实感得分比第二名高出20%。
Citat
"现有方法需要更多的同步性,包括人物身份、嘴唇运动、面部表情和头部姿态等方面。"
"我们发现'魔鬼'在于同步性,这是创造逼真说话头的关键挑战。"