より人間らしいリアルなジェスチャーを生成するための大規模データセットBEATが登場！

dataset 2022年09月20日

3つの要点
✔️ より人間らしいジェスチャー生成のための大規模なマルチモーダルデータセットであるBEAT(Body-Expression-Audio-Text Dataset)を構築
✔️ BEATを用いたジェスチャー生成のためのベースラインモデルであるCaMN(Cascaded Motion Network)を提案
✔️ 生成されたジェスチャーの多様性を評価するための指標であるSRGR(Semantic Relevance Gesture Recall)を導入

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis
written by Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng
(Submitted on 10 Mar 2022 (v1), last revised 19 Apr 2022 (this version, v4))
Comments: ECCV 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language(cs.CL); Graphics(cs.GR); Machine Learning(cs.LG); Multimedia(cs.MM)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

マルチモーダルデータを用いたより人間らしいジェスチャー生成の実現は、アニメーション、エンターテインメント、VRなどの分野で非常に重要な技術であり、これまでも様々な手法が提案されてきました。

このようなリアルなジェスチャー生成を実現するためには、モデルの設計において、音声、表情、感情、話者のアイデンティティなどの様々な要素を考慮する必要があります。

音声やテキストに基づくジェスチャー生成の研究は広く行われていましたが、こうしたジェスチャー生成は、利用可能な大規模データセット・モデル・標準的な評価指標がないという問題によりこれまで未解決の問題となっていました。

本稿では、以下の貢献により上記の問題を解決し、より人間らしいジェスチャー生成を行うことに成功した論文について解説します。

より人間らしいジェスチャー生成のための大規模なマルチモーダルデータセットであるBEAT(Body-Expression-Audio-Text Dataset)を構築
BEATを用いたジェスチャー生成のためのベースラインモデルであるCaMN(Cascaded Motion Network)を提案
生成されたジェスチャーの多様性を評価するための指標であるSRGR(Semantic Relevance Gesture Recall)を導入

それぞれ見ていきましょう。

BEAT: Body-Expression-Audio-Text Dataset

前述した通り、意味・感情に関する注釈を持つ大規模で高品質なマルチモーダルデータセットがないことが人間らしいジェスチャー生成を実現するための障害となっており、既存研究の手法は限られたモーションキャプチャデータセットや擬似ラベルデータセットで学習されているため頑健性にかけるという問題がありました。

これらのデータに関する問題を解決するために、本論文では、Body-Expression-Audio-Textの4つのモダリティにおいて、8種類の感情と4種類の言語で会話する30人の話者から取得した76時間の高品質マルチモーダルデータセットであるBEAT(Body-Expression-Audio-Text Dataset)を構築しました。

BEATの詳細を下図に示します。

会話のセッションとセルフトークセッションのデータの記録には、(a)のように16台のカメラによるモーションキャプチャシステムが採用されている
会話セッションでは、(b)のようにジェスチャーをTalking、Slience、Reaction、Askingの4つのカテゴリに分類している
セルフトークセッションでは、(c)のようにNeutral、Anger、Happiness、Fear、Disgust、Sadness、Contempt、Supriseの7つの感情のカテゴリが等しい割合で設定されている
またデータセットには、(e)のように英語を中心とした4言語で、(e)のように10ヶ国30人の話者による、異なる収録時間のデータが含まれている

また、下の表はBEAT(Ours)と既存のデータセットを比較したものであり、緑のハイライトは最も良い値を、黄色のハイライトは二番目に良い値を示しています。

このように本論文のデータセットは、マルチモーダルデータとアノテーションを含んだ最大規模のモーションキャプチャデータセットであることが分かります。

Multi-Modal Conditioned Gestures Synthesis Baseline

本論文では、より人間らしいジェスチャー生成を行うために、全てのモダリティを入力とするマルチモーダルなジェスチャー生成のベースラインであるCaMN(Cascaded Motion Network)を提案しています。

CaMNは下図に示すように、テキスト、感情ラベル、話者ID、音声、顔のブレンドシェイプ(アニメーション手法の1つ)の重みをエンコードし、2つのカスケード接続されたLSTM＋MLPデコーダによって体と手のジェスチャーに再構築されます。

テキスト、音声、話者IDエンコーダのネットワーク選択は既存研究を参考にし、より良いパフォーマンスを得るためにカスタマイズしています。

また、ジェスチャーと顔のブレンドシェイプの重みは30FPSにダウンサンプリングされ、単語文は音声の無音の時間に対応するようにpadding tokensが挿入されています。

Metric for Gesture Diversity

本論文では、ジェスチャーの多様性を評価するための新しい評価指標であるSRGR(Semantic-Relevant Gesture Recall)を提案しています。SRGRは、生成されたジェスチャーとground truthのジェスチャー間のProbability of Correct Keypoint(PCK)の重みとしてsemantic scoreを利用しています。ここでPCKは、指定された閾値δに対して正常にrecallされた関節の数を表しており、SRGRは以下のように計算することができます。

ここで1は指示関数(indicator function)を、TとJはフレームの集合と関節の数を表しており、論文の著者達は既存の評価指標であるL1 Diversityよりもジェスチャーのrecallを重要視するSRGRの方が、ジェスチャーの多様性に対する人間の主観と合致していると考えています。

Experiments

本論文では、初めに新規の評価指標であるSRGRの有効性を検証し、その後主観的な実験に基づいてBEATのデータ品質の検証と提案モデルの既存手法との比較検証を行いました。

Validness of SRGR

SRGRの有効性を検証するために、以下の条件でユーザ調査が行われました。

モーションシーケンスをランダムに40秒前後のクリップに切り出し、各クリップについて、ジェスチャーの多様性に基づいて評価するよう参加者に指示した
計160人の参加者が、それぞれ15個のランダムなジェスチャークリップに対して、スピーチの内容ではなく、ジェスチャーそのものに基づいて採点を行う
質問項目はいずれも5段階のリッカート尺度で、ジェスチャーの多様性と魅力度に対するユーザの主観的なスコアをそれぞれ算出した

検証結果は下図左のようになり、ジェスチャーの魅力度とその多様性の間に強い相関があることが示されました。

さらに興味深いことに、図の右のグラフより、SRGRはL1 Diversityと比較して、ジェスチャーの多様性の評価においてより人間の感覚に近いことが示されました。

Data Quality

本論文では、新規のデータセットであるBEATの品質を評価するために、比較対象として既存研究で広く利用されているデータセットであるTrinityを使用しました。それぞれのデータセットを19:2:2の比率に分割し、それぞれを訓練/検証/比較データとし、既存手法であるS2Gとaudio2gesturesを用いて比較を行いました。

データセットに対してそれぞれ、Body Correctness(体のジェスチャーの正確度)、Hands Correctness(手のジェスチャーの正確度)、Diversity(ジェスチャーの多様性)、Synchrony(ジェスチャーと音声の同期性)に対しての評価を行い、下の表のような結果になりました。

表よりBEAT(Ours)が全ての面で高い評価を得ていることが分かり、Trinityと比較して本データセットがはるかに優れていることが実証されました。

Evaluation of the baseline model

本論文で提案したモデルであるCaMNの性能を検証するため、以下の条件で既存手法であるSeq2Seq、S2G、A2G、MultiContextとの比較検証が行われました。

Adam optimizerを用いて2e-4の学習率でデータセット全体を15時間学習させる
L1はジェスチャーの性能評価には適さないことが示されているため、評価指標としてFGDを採用した
そのほかに、ジェスチャーの多様性と音声との同期性を評価するため、本論文で提案されたSRGRと既存の指標であるBeatAlignを採用した

検証結果は下の表のようになりました。

このように、全ての評価指標においてCaMNが最も高いスコアを出すことが実証されました。

CaMNによって生成されたジェスチャーの例が下図になります。

右側の男性は、ground truthのジェスチャー(上)とCaMNによって生成されたジェスチャー(左)のサンプルを示しており、非常にもっともらしいジェスチャーを生成出来ていることが確認できます。

さらに興味深いことにCaMNはジェスチャーの感情によるスタイル変換も可能となっており、左側の男性は、neuralなジェスチャー(上)からfearな感情を伴ったジェスチャー(下)へのスタイル変換の例を示しています。

まとめ

いかがだったでしょうか。今回は、より人間らしいジェスチャー生成のための大規模データセットであるBEATとそれを用いた新規のベースラインモデルであるCaMN、その評価指標であるSRGRを提案した論文について解説しました。本論文により、既存手法と比較してよりリアルなジェスチャー生成が可能となっており、アニメーションやVRなどの様々な分野への適用が期待されます。

一方、本研究ではSRGRをセマンティックアノテーションに基づいて算出しているため、ラベル付けされていないデータセットでは限界があるなどの課題点もあるため、今後の動向に注目です。

今回紹介したデータセットやモデルのアーキテクチャの詳細は本論文に載っていますので、興味がある方は参照してみてください。