
产生听众反应的对话的模型现在可以使用了!
三个要点
✔️ 拟议的运动-音频交叉注意力转化器,以合成说话人的运动和语音模式。
✔️ 引入序列编码的VQ-VAE来学习听众运动的离散潜意识表征
✔️ 创建一个由二人对话录像组成的大型数据集
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion
written by Evonne Ng, Hanbyul Joo, Liwen Hu, Hao Li, Trevor Darrell, Angjoo Kanazawa, Shiry Ginosar
(Submitted on 18 Apr 2022)
Comments: Conference on Computer Vision and Pattern Recognition (CVPR) 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
在两个人的对话中,说话人和听话人之间的协调是一个基本要素,现有的研究表明,听话人的非语言反馈,如头部动作,对保持对话的流畅性比这比答复的内容更重要。
然而,在这些面对面的对话中建立非语言反馈的模型是
- 演讲者是多模态的,因为他们既通过言语进行口头交流,又通过面部和身体动作进行非口头交流。
- 听众的反应是不确定的。
这使得它成为一项非常困难的任务,原因是为了模拟自然对话,必须解决这两个挑战。
本文提出了一个使用数据驱动的方法解决上述两个挑战的论文,其数据集是由一对对话组成的新颖而庞大的数据集。
本文的模型从说话者的输入视频中提取语音和面部动作,如下图所示,并能够生成与说话者同步的各种听众反应。
运动-音频交叉注意力转化器,综合了说话人的运动和语音的模式,以及序列编码VQ-VAE,学习了听众运动的离散潜伏表征,可用于从说话人的多模态信息中预测相应的听众反应。相应的听众反应可以通过说话人的多模态信息进行自回归预测。
让我们仔细看看这个模型和数据集。
模型概述。
本文的目的是对面对面交流中说话人和听话人的相互反应进行建模,为了达到这个目的,设置了一个自回归任务,在给定说话人和声音的三维脸部模型的情况下,以自回归的方式预测相应听话人的面部动作。
该模型预测了相应的听众反应的分布,以说话人的多模态输入为条件,如下图所示。
为了对说话者的语音和面部动作进行建模,本文提出了一种新型的变换器,即运动-音频跨模式变换器,以学习融合这两种模式。
此外,序列编码的VQ-VAE,将VQ-VAE扩展到运动合成领域,并能学习离散的潜在空间,已经成功地用于预测听众下一个时间步骤反应的多叉分布。
得到的输出是一个与说话人同步的听众反应的分布,可以从中抽出多个动作。
对话数据集
随着最近COVID-19的普及,出现了分屏视频会议平台的趋势,在进行视频采访时,说话人和听话人都在屏幕的一边。这种类型的方法对于研究面对面的交流非常方便,因为双方都直接面对镜头,这是面对面交流的一个方面。
在此背景下,本文从六个YouTube频道中提取了72小时的面部动作和音频,以创建一个包含各种场景和人的面部表情的训练数据集。
对于这样得到的视频,使用DECA(一种现有的面部表情提取方法)从真人视频中恢复3D模型的头部姿势和面部表情。(数据集的样本视频可以在这里找到)。
在训练过程中,预测模型是用这些面部表情、姿势和说话人的声音作为假的基础事实来训练的。
实验
该研究对基线进行了验证,以评估所提出的模型将说话人的言语和行动转化为听众行动的有效性。
验证与基线的比较
本文根据对话听众应表现出(1)真实、(2)多样和(3)与说话人的动作同步的想法,沿着几个轴线评估了该模型的预测。
具体来说,根据下面的评价指标,对听众的面部表情(表达)和动作(旋转)分别进行评价。
- L2:地面真相的EXPRESSION的系数除以姿势的值的欧氏距离。
- 弗伦奇距离(FD)):由生成的运动序列和地面真实运动序列之间的分布距离测量的值。
- 变化:整个序列中运动的变化。
- SI: 预测的多样性
- 成对FD(P-FD):从听者-说话者对的分布距离来衡量同步程度的一个数值。
- PCC:皮尔逊相关系数,是心理学中经常用来量化全局同步性的措施。
这些评估指标还与以下基线进行了比较
- NN运动:在图形合成中经常使用的片段搜索方法,给定一个说话人的运动,在训练集中找到它的邻域,并使用相应的听者片段作为预测器。
- NN音频:与上述方法相同,但使用来自预训练的VGGish的音频嵌入。
- 随机:返回一个从训练集中随机选择的听众的64帧运动序列。
- 中位数:返回训练集的面部表情和姿势的中位数值
- 镜像:返回演讲者动作的平滑版本。
- 延迟镜:返回延迟17帧(约0.5秒)的扬声器平滑运动。
- 让我们面对现实(LFI):SOTA的3D头像生成方法在本文的数据集上被重新训练。
- 随机表达式:在每个时间步长返回一个随机表达式。
核查结果列于下表中。
从表中可以看出,该方法在各种评价指标上取得了最平衡的表现,结果表明,听者的动作与说话者的真实性、多样性和同步性都得到了很好的实现。
摘要
情况如何?在这篇文章中,我们旨在对两人对话中说话人和听话人的动作同步进行建模,并描述了一个用于说话人输入的多种模式的运动-音频交叉注意力变换器和一个新颖的序列编码VQ-VAE,它能够合成听话人的非决定性反应。描述了所提出的新型序列编码VQ-VAE的模型。
与基线的比较验证表明,该方法能以非常高的准确度产生听众的反应,尽管仍然存在一些问题,如缺乏直接的眼神接触和远程连接造成的延迟,因为产生的数据集是远程录像。将来的发展值得关注。
本文所介绍的数据集和模型的结构细节可以在本文中找到,如果你有兴趣,应该查阅。
与本文相关的类别