赶上最新的AI论文

BEAT,一个用于生成更多类似人类的真实手势的大型数据集,就在这里!

BEAT,一个用于生成更多类似人类的真实手势的大型数据集,就在这里!

数据集

三个要点
✔️ 构建BEAT(身体-表达-音频-文本数据集),一个大型的多模态数据集,用于生成更多类似人类的手势。
✔️ 提出CaMN(级联运动网络),一个使用BEAT生成手势的基准模型
✔️ 介绍语义相关性手势召回(SRGR),这是一个评估生成手势多样性的指标。

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis
written by Haiyang LiuZihao ZhuNaoya IwamotoYichen PengZhengqing LiYou ZhouElif BozkurtBo Zheng
(Submitted on 10 Mar 2022 (v1), last revised 19 Apr 2022 (this version, v4))
Comments: ECCV 2022

Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language(cs.CL); Graphics(cs.GR); Machine Learning(cs.LG); Multimedia(cs.MM)

code: 

本文所使用的图片来自于论文,来自于介绍性的幻灯片,或者是在 参考了这些图片后制作的

介绍

利用多模态数据实现更像人类的手势生成是动画、娱乐和VR领域的一项非常重要的技术,并提出了各种方法。

为了实现这种逼真的手势生成,在设计模型时需要考虑各种因素,如语音、面部表情、情绪和说话人身份

尽管对基于语音和文本的手势生成进行了广泛的研究,但由于缺乏可用的大型数据集、模型和标准评估指标,这种手势生成至今仍是一个开放的问题。

本文介绍了一篇成功解决上述问题并产生更像人类的手势生成的论文,其贡献如下

  • 建立BEAT(身体-表情-音频-文本数据集),这是一个大型的多模态数据集,用于生成更像人类的手势。
  • 一个基线模型,CaMN(级联运动网络),用于使用BEAT生成手势。
  • 介绍SRGR(Semantic Relevance Gesture Recall),这是一个评估生成手势多样性的指标。

让我们逐一来看一下。

BEAT: 身体-表达-音频-文本数据集

如上所述,缺乏带有意义和情感注释的大型高质量多模态数据集是实现类似人类手势生成的一个障碍,而现有研究中的方法是在有限的运动捕捉数据集和伪标签数据集上进行训练的,这使得它们不太稳健。

为了解决这些与数据有关的问题,本文提出了一个长达76小时的高质量多模态数据集,该数据集是由30个以四种不同语言说话的人在身体-表情-声音-文字四种模式下的八种不同情绪中获得的,称为BEAT(身体-表达-音频-文本数据集)被构建。

BEAT的细节如下图所示。

  • 采用了一个16个摄像头的动作捕捉系统来记录对话和自言自语环节的数据,如(a)所示。
  • 在对话环节中,手势被分为四类,如(b)所示:说话、滑稽、反应和询问。
  • 自我对话环节,七种情绪类别的比例相同,如(c)中性、愤怒、快乐、恐惧、厌恶、悲伤、蔑视和惊奇
  • 该数据集还包含四种语言的数据,主要是英语,有不同的记录时间,由来自10个国家的30位发言者提供,如(e)所示

下表还将BEAT(Ours)与现有的数据集进行了比较,绿色高光表示最佳值,黄色高光表示次佳值。

因此,可以看出,本文的数据集是包含多模态数据和注释的最大的运动捕捉数据集。

多模式条件反射手势合成基线

本文提出了一个多模态手势生成基线--CaMN(级联运动网络),用于生成更多类似人类的手势,并将所有模态作为输入。

CaMN对文本、情感标签、说话人身份、语音和面部混合形状(动画方法之一)的权重进行编码,通过两个级联的LSTM+MLP解码器将其重建为身体和手势,如下图所示。

文本、语音和说话者身份编码器的网络选择是基于现有的研究,并为更好的性能而定制。

手势和面部混合形的权重被降频到30FPS,单词句子被插入填充标记以对应音频的沉默时间。

手势多样性的衡量标准

本文提出了一种新的手势多样性评价指标,即语义相关手势召回率(SRGR)。SRGR使用语义分数作为生成的手势和地面真实手势之间的正确键位概率(PCK)的权重。其中PCK代表在给定的阈值δ下成功召回的关节数,SRGR可按如下方式计算。

论文作者认为,SRGR比现有的L1多样性指标更重视手势回忆,更符合人类对手势多样性的主观性。作者认为,SRGR比现有的L1多样性指标更重视手势回忆,更符合人类对手势多样性的主观性

实验

本文,首先测试了新型评价指标SRGR的有效性,然后根据主观实验验证了BEAT的数据质量,并对所提模型与现有方法进行了比较验证

SRGR的有效性

为了验证SRGR的有效性,我们在以下条件下进行了用户研究

  • 运动序列被随机切割成约40秒的片段,并要求参与者根据手势多样性对每个片段进行评分。
  • 共有160名参与者每人根据手势本身,而不是讲话内容,对15个随机手势片段进行评分。
  • 问卷中的项目均为五点李克特量表,并分别计算了用户对手势多样性和吸引力的主观评分。

验证结果显示在下图的左边,表明一个手势的吸引力和它的多样性之间有很强的关联性

更有趣的是,图中右侧的图表显示,与L1多样性相比,SRGR在评估手势多样性方面更像人类

数据质量

为了评估新型数据集BEAT的质量,本文使用现有研究中广泛使用的数据集Trinity作为对比。每个数据集被分成19:2:2的比例,分别作为训练/验证/比较数据,并使用现有方法S2Gaudio2gestures进行比较。

对于每个数据集,分别针对身体正确性(身体手势的准确性)、手部正确性(手部手势的准确性)、多样性(手势的多样性)和同步性(手势和语音的同步性)进行评估,结果如下表所示。结果显示在下面的表格中。

该表显示,BEAT(Ours)在各方面的评价都很高,表明该数据集远远优于Trinity。

对基线模型的评价

为了验证本文提出的模型CaMN的性能,在以下条件下与现有的Seq2Seq、S2G、A2G和MultiContext方法进行了比较验证。

核查结果如下表所示。

因此,事实证明,CaMN在所有评价指标中得分最高

下面是一个由CaMN生成的手势的例子。

右边的人展示了一个地面真实手势的样本(上面)和一个由CaMN生成的手势(左边),证实它能够生成非常合理的手势。

更有趣的是,CaMN还允许按情绪对手势进行风格转换,左边的人展示了一个从神经手势(顶部)到带有FEAR情绪的手势(底部)的风格转换的例子。

摘要

情况如何?在这篇文章中,我们描述了一篇论文,提出了BEAT,一个用于生成更多类似人类手势的大规模数据集,CaMN,一个使用BEAT的新型基线模型,以及SRGR,其评估指标。与现有的方法相比,本文能够实现更真实的手势生成,有望应用于动画和VR等各个领域。

另一方面,本研究根据语义注释计算SRGRs,这在无标签的数据集和其他问题上有局限性。

本文所介绍的数据集和模型的结构细节可以在本文中找到,如果你有兴趣,应该查阅。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们