人間の感情を考慮した新たなジェスチャー生成GAN！

GAN（敵対的生成ネットワーク） 2022年06月30日

3つの要点
✔️ speakerのスタイルを維持しつつ、人間の感情表現を考慮した上半身のジェスチャーを生成するためのGANベースモデルを提案
✔️ MFCC EncoderやAffective Encoder等の導入により、潜在的な感情の特徴量を学習することが可能に
✔️ 複数の評価指標において、state-of-the-artを達成するジェスチャーの生成が確認された

Speech2AffectiveGestures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression Learning
written by Uttaran Bhattacharya, Elizabeth Childs, Nicholas Rewkowski, Dinesh Manocha
(Submitted on 31 Jul 2021)
Comments: ACM 2021
Subjects: Multimedia (cs.MM); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

Co-speech gesture(共同音声ジェスチャー)は、人の発話に関連する身体表現であり、Beat gesture(＝スピーチに伴うリズミカルなジェスチャー)やIconic gesture(＝腕を広げたり縮めたりすることで大きい・小さいを表すなどの、物理的な概念を表すジェスチャー)、Metaphoric gesuture(＝手を胸にあてて「愛」を表すなどの、抽象的な概念を表すジェスチャー)等の様々な種類のジェスチャーが確認されています。

こうしたCo-speech gestureの生成は、現代社会において魅力的なキャラクターやバーチャルエージェントを作成する上で重要なタスクであり、これまでに様々なCo-speech gestureの生成モデルが提案されてきました。

しかし、既存手法の問題点として、人間は感情によってジェスチャーのスタイルを変化させる事が知られているにも関わらず(怒りの感情を持っているときは、腕を早く振ったり、頭を動かしたりするなど)、こうした感情表現を考慮したジェスチャーを生成できない点が挙げられていました。

本稿では、MFCC EncoderやAffective Encoder等を導入することにより、こうした感情表現を取り入れた上半身のジェスチャー生成を可能にしたGANベースモデルを紹介します。

モデルの概要

本モデルは下図のように、4つのEncoderからなるGeneratorと、Generatorが生成したジェスチャーと本物のジェスチャーを識別するDiscriminatorから構成されています。

Generator

本手法のGeneratorは以下の4つのEncoderにより構成されています。

1.MFCC Encoder

MFCCs(Mel-Frequency Cepstral Coefficients＝メル周波数ケプストラム係数)は、音声認識分野においてよく用いられる、聴覚フィルタに基づく特徴量です。本手法では、MFCCsによって得られたイントネーションなどの音声から得られる感情の特徴量をジェスチャー生成に組み込むために、MFCC Encoderを設計しています。

2.Text Encoder

音声に対応するテキスト原稿を処理するために、Text Encoderが用いられます。本手法ではテキスト原稿に対し、学習済みのFastTextの単語埋め込みモデルを使用することで単語列を特徴量に変換しています。

3.Speaker Encoder

Speaker Encoderでは、Speaker IDに対してワンホットベクトルを使用し、その後２組の全結合層で学習させます。

4.Affective Encoder

本手法では、ポーズに基づく感情表現を特徴量に変換するためのエンコーディングメカニズムを提案しています。ジェスチャーは通常、体幹、腕、頭の動きから構成されるため、これらの部位に対応する10個の関節を考慮しています。ここでは関節を頂点とし、体幹から四肢に向かう辺を有向グラフとして、辺の方向に対してEncoderを学習させます。その際、階層的なエンコーディングに対応するために、STGCNs(Spatial-Temporal Graph Convolutions)を使用しています。

最後に、4つのEncoderによって得られた特徴列を連結し、Bi-GRU(Bidirectional Gated Recurrent Unit＝双方向GRU)で学習した後、全結合層とLeaky ReLUに通すことでジェスチャーを生成します。

Discriminator

本手法のDiscriminatorは、Generatorによって生成されたジェスチャーを取り込み、Affective Encoderを用いて特徴列を計算します。

その後にこの特徴列に対してBi-GRUを使用し、全結合層により双方向の出力を合計し、シグモイド関数を適用したのちに、Discriminatorはジェスチャーが本物(＝データセットから生成されたジェスチャー)か偽物(＝Generatorが生成したジェスチャー)かを識別します。

この一連の学習を敵対的に繰り返すことで、感情表現を取り入れたジェスチャー生成が可能になっています。

実験

本論文では、既存手法との比較検証と生成ジェスチャーへのuser studyによる調査の2つの実験を行いました。

既存手法との比較検証

本論文では、以下の条件下で比較検証を行いました。

データセットには、ジェスチャー生成手法における2つのベンチマークであるTED Gesture DatasetとGENEA Challenge 2020 Datasetを用いる
TED Gesture Datasetでは、既存手法であるSeq2Seq、Speech to Gestures with Individual Styles(S2G-IS)、Joint Embedding Model(JEM)、Gestures from Trimodal Context(GTC)と比較する
公正な比較のために、各手法では著者が提供する事前学習済みモデルを用いる

下の図は、TED Gesture Datasetから抜粋した2種類のサンプルに対するジェスチャー生成の結果になります。

生成されたジェスチャーは上から、元のspeakerのジェスチャー、GTC(現在のジェスチャー生成のstate-of-the-art手法)で生成されたジェスチャー、　本論文のMFCC Encoder&Affective Encoderを排除した提案モデルで生成されたジェスチャー(Ablation study)、および本論文の提案モデルで生成されたジェスチャーになります。

この結果から、以下のことが分かります。

MFCC Encoderがない場合、音声の内容には一致するが、音声の感情的な特徴を考慮したジェスチャーを生成することができていない
- 例えば、"I was"や"I believe"という単語を使用した際、speaker自身を指差すジェスチャーを生成することはできているが、"bored"のような表現は生成することができていない
Affective Encoderがない場合、生成されたジェスチャーにはわずかな体の動きが見られるだけで、重要な感情表現を考慮したジェスチャーを生成することができていない
一方で本論文の提案モデルは、音声に合わせた適切な感情表現を生成できている
- 例えば、"excited"と言えば腕を素早く動かし、"bored"と言えば腕や肩を落とすジェスチャーが確認できる

生成ジェスチャーへのuser studyによる調査

本論文では、以下の条件下でuser studyを行いました。

生成されたジェスチャーがどの程度感情表現と一致しているか判断するために、24名の参加者に対して調査を実施した
それぞれの参加者に、TED Gesture Datasetから引用されたスピーチに対応するジェスチャーを使用して調査を行った
調査に用いられたジェスチャーは、元のspeakerのジェスチャー、本論文の提案モデルによって生成されたジェスチャー、GTCによって生成されたジェスチャーの3種類である
参加者は、2つの質問に対して、1〜5の5段階評価で回答する(1が最も悪く、5が最も良い)

下図は、(a)ジェスチャーがどの程度もっともらしく見えるか、(b)ジェスチャーと感情表現がどの程度一致しているかの2つの質問に対するuser studyの結果になります。

(a)では、GTCで生成されたジェスチャーと比較して15.28%、元のspeakerのジェスチャーと比較して3.82%多くの参加者が4または5と回答していることから、参加者は本手法によって生成されたジェスチャーが既存手法よりも優れ、元データと同等の品質であると判断したことが分かります。

また、(b)ではGTCで生成されたジェスチャーと比較して16.32%、元のspeakerのジェスチャーと比較して4.86%多くの参加者が4または5と回答していることから、参加者は生成されたジェスチャーが適切に感情と同期していると判断したことが分かります。

このように、既存手法との比較検証と生成ジェスチャーへのuser studyによる調査の両方において、本手法により生成されたジェスチャーが十分にspeakerの感情を考慮していると言える結果になりました。