只需通过语音就可以生成一个类似于演讲者的三维人脸网状结构
三个要点
✔️ 扩展现有的数据集Voxceleb,创建Voxceleb-3D,一个成对的语音和面部网格数据集。
✔️ 提议的跨模式感知者,一个仅从语音数据中重建3D人脸网格的框架。
✔️ 启用具有情感控制功能的视频编辑方法,这是现有方法中所没有的。
Cross-Modal Perceptionist: Can Face Geometry be Gleaned from Voices?
written by Cho-Ying Wu, Chin-Cheng Hsu, Ulrich Neumann
(Submitted on 18 Mar 2022)
Comments: Accepted to CVPR 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning(cs.LG); Audio and Speech Processing(eess.AS)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
由于人类的语音是由声带、面部肌肉和面部骨架等发音结构产生的,已经证明语音和说话人的脸部形状之间存在关联,并且已经进行了研究,利用这种关联性,仅从说话人的语音中产生可信的面部图像。
然而,在这些从语音生成人脸图像的任务中提出的一个问题是无法预测与语音不相关的因素,如背景、发型和面部纹理。
本文提出的问题是:"上述噪音较小的3D网格是否能够更准确地预测说话者的脸部形状?"本文首次研究了语音和人的三维脸部形状之间的相关性,所依据的假设是。
本文的两个主要贡献是
- 创建Voxceleb-3D,这是一个新的数据集,用于从语音中生成说话人的面部三维网格。
- 跨模式感知者,一个仅从音频数据中重建三维人脸网格的框架。
让我们逐一来看一下。
Voxceleb-3D。
本文的主要目标是研究语音和一个人的三维面部形状之间的相关性,这需要获得大量的三维面部数据集。
为了解决这个问题,本文利用现有研究中使用的Voxcleb(一个大型的数据集,包括名人的演讲语录()和VGGFace(一个大型人脸图像数据集)。Voxceleb-3D,一个新的数据集,包括成对的语音语料和说话者的三维脸部数据。(下面显示的面孔样本)。
具体来说,Voxceleb和VGGFace的音频和图像数据的交集是从现有的研究中获得的,而3D人脸数据则是使用最突出的3D人脸数据集300W-LP-3D中采用的优化方法从2D图像中改编而来。3D被创造出来。
Voxceleb-3D中包含的音频数据、面部图像、3DMM参数和性别比例的详情见下表。
在数据集中的1225个发言人中,那些名字以A到E开头的人被分成一个评估数据集,其余的被分成一个训练数据集。
跨模式的感知者
Cross-ModalPerceptionist使用3D Morphable Models(3DMM)从语音中学习3D人脸网格,3DMM是一个使用主成分分析的现有3D人脸生成模型,有监督和无监督学习。分析了语音和三维人脸形状之间的关联性。
语音/网格对的监督学习
首先,介绍下图所示的监督学习方法。
最初,当输入一对语音和3DMM参数时,使用Mel-Spectrogram从输入语音中提取语音嵌入。
接下来,按照现有的研究,语音编码器Φv在一个大规模的说话人识别任务中进行预训练,然后将解码器Φdec用来学习和估计3DMM参数α(图。地面真实参数α*被用来计算监督损失。)
由于获取三维面部数据的各种问题,如非常昂贵、隐私限制和耗时的三维MMM拟合面部标志,无监督学习被认为是实践中的一个可行选择。
因此,本文提出了一个利用知识提炼的无监督学习框架,如下图所示。
这个框架的基础是
- 使用GANs合成语音的二维人脸图像。
- 从复合的面部图像进行3D建模。
该系统由两个阶段组成,使用训练有素的教师模型,不仅可以从实际的脸部扫描中获得脸部形状,还可以通过优化的3DMM参数获得。
综上所述。跨模式感知者的总体情况如下图所示。
其中c-kasb指的是c通道输出的卷积层,核大小为a,跨度为b,线性层中的d指的是输出一个d维的矢量。
实验
在本文中,对数据集进行了上述描述。Voxceleb-3D被用于CMP和现有的方法通过用户研究得到了验证和评估。
与现有方法进行比较验证。
本文采用了以下评价指标和基线对比验证是以下指标和基线被用来进行比较验证。
估值指数
本文使用的评价指标是绝对比值误差(ARE),在现有的方法中,它被用来测量和比较距离,如下图所示。
每个评价指标都可以计算为ER(耳比)=AB(两耳之间的距离)/EF(两外眼之间的距离),这些指标可以掌握生成的脸部变形的程度。
基线。
在这个验证中,通过直接级联两个单独训练的方法--基于GAN的音频到图像的转换模型和图像到三维网格的转换模型--构建了一个从音频生成三维网格的基线,如下图所示。
下表显示了使用这些评估指标和基线的CMP和本文的比较验证结果。
结果显示,。
- 与预先训练好的现有模型直接级联的基线相比,使用CMP的跨模式学习产生了非常好的结果(大约提高了20%)。
- 这些改进揭示了语音和面部形状之间的相关性,表明从语音信息中学习3D面部网状结构预测是有效的。
- 在所有评估指标中,ER显示出最显著的改善,表明脸部宽度可能是通过语音信息进行预测的最有效指标。
结果表明,使用CMP的跨模态学习能够以非常高的精度从语音信息中生成三维人脸网格。
此外,还对各种脸型进行了比较研究,以检验结果所提出的假设,即脸部宽度是通过语音信息进行预测的最有效指标。
来自我们监督学习的面孔网格
下图显示了四种不同的脸型(Skinny=Slim,Wide=Face,Regular=Regular,Slim=Slim)和用于比较验证的参考图像。
如图所示,CMP的监督学习已经能够生成与参考图像的脸部形状相匹配的脸部网格,这一结果证实了从上述比较验证中得到的假设。
摘要
情况如何?在这种情况下,我们已经创建了一个新的Voxceleb-3D,一个将声音和面部网格配对的数据集。Voxceleb-3D,一个能够仅通过语音数据生成3D人脸网格的模型。关于跨模式的感知者解释一下。
这个模型不仅证明了高质量的三维人脸网格可以单独从语音数据中生成,而且还证明了根据语音信息进行预测的最有效指标是脸部的宽度。并认为用语音信息进行预测的最有效指标是脸的宽度。
然而,挑战依然存在,例如仅从音频中生成面部细节,如面部不规则和皱纹的难度,以及由于健康状况(如吸烟或饮酒后)导致的音频变化可能会影响生成的质量。
这里介绍的模型结构和生成的三维脸部网格的细节可以在本文中找到,感兴趣的人可以参考一下。
与本文相关的类别