赶上最新的AI论文

一个新的手势生成的GAN,考虑到了人类的情感!

一个新的手势生成的GAN,考虑到了人类的情感!

生成对抗网络(GAN)

三个要点
✔️ 提出了一个基于GAN的模型来生成上半身的手势,考虑到人类的情感表达,同时保持演讲者的风格。
✔️ 引入MFCC编码器、情感编码器等来学习潜在的情感特征。
✔️ 在多个指标上确定了达到最先进水平的手势的生成。

Speech2AffectiveGestures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression Learning
written by Uttaran BhattacharyaElizabeth ChildsNicholas RewkowskiDinesh Manocha
(Submitted on 31 Jul 2021)
Comments: ACM 2021

Subjects: Multimedia (cs.MM); Machine Learning (cs.LG)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

共语手势是与人类言语相关的身体表达,包括各种类型的手势,如节拍手势(=与言语相关的有节奏的手势),标志性手势(=通过开合手臂表达物理概念的手势,如大和小),隐喻手势(=通过将手放在胸前表达抽象概念的手势,如 "爱")。各种类型的手势已被确认,包括节拍手势(=与说话有关的有节奏的手势),象征性手势(=代表物理概念的手势,如通过打开或关闭手臂来表示大或小)和隐喻性手势(=代表抽象概念的手势,如通过将手放在胸前来表示'爱')。

在现代社会创造有吸引力的人物和虚拟代理中,这种共语手势的生成是一项重要的任务,并且已经提出了各种生成共语手势的模型。

然而,现有方法的一个问题是,它们无法生成考虑到这些情绪表达的手势,尽管已知人类会根据自己的情绪改变手势风格(例如,当他们生气时,他们会更快地挥舞手臂并移动头部)。提出了以下几点意见。

在这篇文章中,MFCC编码器和情感编码器等人,本文介绍了一个基于GAN的模型,能够生成包含这些情感表达的上身手势。

模型概述。

该模型由一个发生器和一个鉴别器组成,前者由四个编码器组成,后者负责鉴别发生器生成的手势和真实手势,如下图所示。

发电机

该方法的发生器由以下四个编码器组成。

1.MFCC编码器

MFCCs(Mel-Frequency Cepstral Coefficients=梅尔-频谱系数)是基于听觉滤波器的特征,在语音识别领域普遍使用。在这种方法中,设计了一个MFCC编码器,将通过MFCC获得的语音中的情感特征,如音调,纳入手势生成中。

2.文本编码器

文本编码器用于处理与语音对应的文本手稿。该方法通过使用针对文本手稿的训练有素的FastText单词嵌入模型,将单词序列转换为特征。

3.扬声器编码器

演讲者编码器使用单热向量进行演讲者身份识别,然后在两套全耦合层中进行训练。

4.情感编码器

该方法提出了一种编码机制,将基于姿势的情绪表达转换为特征。由于手势通常由躯干、手臂和头部运动组成,因此考虑了与这些部分对应的十个关节。这里,关节是顶点,从躯干到四肢的边是有向图,编码器是根据边的方向训练的。在此过程中,STGCNs(空间-时间图形卷积)被用来处理分层编码问题。

最后,四个编码器得到的特征序列在Bi-GRU(Bidirectional Gated Recurrent Unit = Bidirectional GRU)中串联和训练,然后通过All Combining Layer和Leaky ReLU来生成手势。

鉴别器

该方法中的判别器采用生成器产生的手势,并使用情感编码器计算出特征序列。

事后。在对这个特征序列使用Bi-GRU后,将所有耦合层的双向输出相加,并应用一个sigmoid函数,判别器识别出手势是真的(=从数据集产生的手势)还是假的(=由发生器产生的手势)。然后,判别器将手势应用到数据集上。

这一连串的学习是以对抗的方式重复进行的,使包含情感表达的手势生成成为可能。

实验

本文进行了两个实验:与现有方法的比较对生成的手势的用户研究实验进行了。

与现有方法进行比较验证。

本文在以下条件下进行了比较验证

  • 该数据集使用了手势生成方法的两个基准,即TED手势数据集和GENEA挑战2020数据集。
  • TED手势数据集比较了现有的Seq2Seq、带有个人风格的语音到手势(S2-IS)、联合嵌入模型(JEM)和来自三模态的手势等方法。语境(GTC),并与
  • 为了进行公平的比较,每种方法都使用了作者提供的预训练的模型

下面的数字显示了从TED手势数据集中抽取的两个不同样本的手势生成结果。

生成的手势从上到下分别是:原始说话人的手势、GTC(目前最先进的手势生成方法)生成的手势、不含MFCC编码器的拟议模型生成的手势和有效的手势。由不含编码器的拟议模型产生的手势(消融研究),以及由本文中的拟议模型产生的手势。

结果显示,。

  • 在没有MFCC编码器的情况下,它与语音的内容相匹配,但无法生成考虑到语音情感特征的手势。
    • 例如,当使用 "我是 "或 "我相信 "这些词时,有可能产生指向说话者本身的手势,但不可能产生 "无聊 "这样的表达。
  • 在没有情感编码器的情况下,生成的手势只显示轻微的身体动作,没有考虑到重要的情感表达。
  • 另一方面,本文提出的模型能够为语音生成适当的情感表达。
    • 例如,说 "兴奋 "会导致手臂的快速移动,而 "无聊 "则会导致手臂/肩膀的下垂动作。

通过用户研究对生成性手势进行调查。

在本文中,我们在以下条件下进行了用户研究

  • 对24名参与者进行调查,以确定生成的手势与他们的情绪表达相匹配的程度。
  • 每个参与者都被调查,使用的手势与从TED手势数据集中提取的演讲稿相对应。
  • 研究中使用的三种手势是原始说话人的手势、本文提出的模型生成的手势和GTC生成的手势。
  • 参与者按照1到5的标准回答两个问题(1为最差,5为最好)。

下图显示了用户对两个问题的研究结果:(a)手势看起来有多合理,(b)手势与情感表达的匹配程度

在(a)中,与GTC生成的手势相比,回答4或5的参与者多了15.28%,与原始说话人的手势相比多了3.82%,表明参与者判断该方法生成的手势比现有方法好,与原始数据的质量相当这表明,参与者判断这种方法产生的手势优于现有的方法,与原始数据的质量相当。

在(b)中,与GTC生成的手势相比,回答4或5的参与者多了16.32%,与原说话人的手势相比多了4.86%,表明参与者判断生成的手势与他们的情绪适当地同步

因此,与现有方法的比较验证和对生成的手势的用户研究都表明,该方法生成的手势是足够的充分考虑说话人的情绪。

摘要

情况如何?产生更多类似人类的手势在各种多媒体应用中是很有用的,如咨询和机器人助手,而且该领域有望在未来进一步发展。

但另一方面,也有需要改进的地方,如无法处理诸如讽刺等与话语内容和情感不匹配的表达方式,以及该系统仅限于生成上半身的手势。这里介绍的模型结构和生成的手势的细节可以在本文中找到,感兴趣的人可以参考一下。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们