![腾讯游戏开发精粹Ⅱ](https://wfqqreader-1252317822.image.myqcloud.com/cover/98/43738098/b_43738098.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
4.5 多情绪语音驱动数字人
当完成了4.3节和4.4节中提出的中立表情的语音驱动高保真数字人之后,进一步提出假设,是否可以借助语音让数字人做出不同的面部表情呢?
本节提出了如图4.14所示的整体方案,方案的两部分主体仍然是多情绪数据采集和模型训练。
![](https://epubservercos.yuewen.com/434E06/23020641401649006/epubprivate/OEBPS/Images/42290_110_1.jpg?sign=1739022472-U5Ky1HlDHcoF9g3yQWeAVnd2kuTjJdH4-0-df4f74b69e6ce6915aaf484ff3c6ffa1)
图4.14 多情绪语音驱动数字人方案示意图(图中人物为动作捕捉演员孙笑愚)
4.5.1 多情绪语音-动画数据集设计与采集
和前面解决数字人口型驱动问题的思路一致,首先进行训练数据的采集和制作。
如图4.15所示,在动作捕捉场地内,动作捕捉演员按照制作的台本和规定的情绪去表演内容,同时相关设备记录下演员的面部表演视频和声音,以及对应的情绪标签。具体地,一共采集了4类情绪视频和语音数据,分别是中立、高兴、悲伤和愤怒。获取到这些原始数据后,对于每种情绪的表演视频,分别单独制作了解算器,用来计算不同情绪的动画控制器数据。数据的其他处理过程与4.3节和4.4节的方法流程一致。这样就得到了一个多情绪语音-动画数据集。
![](https://epubservercos.yuewen.com/434E06/23020641401649006/epubprivate/OEBPS/Images/42290_110_2.jpg?sign=1739022472-IDqhBMl6l0unOpisyfwtaPIx0VYR7pHd-0-cca4a481c91f8d789e1df0947e8de0e4)
图4.15 多情绪语音-动画数据集采集流程示意图(图中人物为动作捕捉演员孙笑愚)
当制作完多情绪语音-动画数据集后,需要训练语音驱动模型。
4.5.2 模型训练
多情绪语音驱动模型基本沿用了基于PPG特征的任意人、多语言驱动模型的架构,只是在输入端增加了一个输入源——情绪标签。采用一个4D向量来表示情绪标签,对于某一种情绪,在对应位置上置“1”,而其余位置上置“0”。其余仍然沿用相同的模型架构。
4.5.3 结果与分析
下面分别是在不同情绪标签下,语音驱动数字人Matt的结果(注:图片结果来自虚幻引擎4的渲染结果截屏)。
图4.16所示为“高兴”标签下的驱动结果。
图4.17所示为“难过”标签下的驱动结果。
![](https://epubservercos.yuewen.com/434E06/23020641401649006/epubprivate/OEBPS/Images/42290_111_1.jpg?sign=1739022472-TFsdYzC8EbbM8rMjsdt8sE2Owz4XeV01-0-3ca4c832122395d06ba336ebf3ffec89)
图4.16 “高兴”标签下的驱动结果
![](https://epubservercos.yuewen.com/434E06/23020641401649006/epubprivate/OEBPS/Images/42290_111_2.jpg?sign=1739022472-yaNH5q2b9iPRgYkSmDgld3fVhEKOGO7T-0-bd14dee00576b1480a8f43a36f624082)
图4.17 “难过”标签下的驱动结果
图4.18所示为“生气”标签下的驱动结果。
![](https://epubservercos.yuewen.com/434E06/23020641401649006/epubprivate/OEBPS/Images/42290_111_3.jpg?sign=1739022472-4SjqCZDFiZczNvBnuiBWPgotbXaVIyhR-0-d3c78c7a4e70000cfe8606ba07aba587)
图4.18 “生气”标签下的驱动结果