スピーチに応じた上半身のジェスチャーを自動で生成するモデル、FreeMoが登場！

Speech Synthesis 2022年07月19日

3つの要点
✔️ スピーチに応じた上半身のジェスチャーを自動で生成するモデルであるFreeMoを提案
✔️ これまでのジェスチャー生成モデルとは異なる、Pose mode branchとRhythmic motion branchを用いた生成手法を提案
✔️ 多様性、品質、同期性の面で既存のベースラインを上回る性能を実証

Freeform Body Motion Generation from Speech
written by Jing Xu, Wei Zhang, Yalong Bai, Qibin Sun, Tao Mei
(Submitted on 4 Mar 2022)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Sound (cs.SD); Audio and Speech Processing (eess.AS)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

上手な話し手は、情報を効果的に伝えるためにスピーチと同時にジェスチャーを行なっており、デジタルアバターやソーシャルロボットのようなアプリケーションの実現の上でも、このようなジェスチャーは必要不可欠になっています。

しかし、スピーチに合わせた口唇の動きを生成する研究は広く行われていますが、発話からジェスチャーへの変換は非常に不確定要素が多い面を保つため、これまで未発展のままでした。

具体的には、同一人物が2回続けて同じスピーチをしたとしても、同じジェスチャーを示すとは限らない、長時間のスピーチでは時々ポーズが切り替わる可能性がある、長時間のスピーチのジェスチャー生成が困難であるなどの様々な問題がありました。

本稿で紹介するFreeMo(Free form Motion generation model)は、ジェスチャーをPose modeとRhythmic motionの2つのモジュールに分解することで、これらの問題を解決し、スピーチに応じた上半身のジェスチャーを自動で生成する事に成功したモデルになります。

FreeMoの概要

FreeMo(Free form Motion generation model)のモデル概要は下図のようになっています。

音声合成によるジェスチャー生成とは、入力音声に対応する動作シーケンスを生成することであり、そのためには音声からジェスチャーへの対応づけが必要になります。

しかし、このようなマッピングは非常に非決定的かつマルチモーダルであり、既存研究での課題になっていました。

本手法では、この問題を解決するために、ジェスチャー生成をPose mode branchとRhythmic dynamics branchの2つの相補的なマッピングに分解するアプローチを提案しています。

Pose mode branchでは、VAEの潜在空間における条件つきサンプリングにより多様な上半身のポーズを生成する役割を果たし、Rhythmic dynamics branchでは、生成されるポーズを音声の韻律に同期させる役割を果たします。

既存のジェスチャー生成モデルとの比較検証

本実験では、以下の5つのモデルを用いて比較実験が行われました。

Audio to Body Dynamics (Audio2Body): 音声からジェスチャーへの変換にRNNネットワークを採用している
Speech2Gesture (S2G): 音声からジェスチャーを生成するためにCNNネットワークを採用している
Speech Drives Template (Tmpt): 音声から体の動きへのマッピングの曖昧さを解消するために、Gesture Templateを学習する
Trimodal-Context (TriCon): RNNネットワークを採用し、音声、テキスト、SpeakerIDの3つを入力として学習する
Mix-StAGE: speakerごとの固有のstyle embeddingを学習する生成モデル

また、データセットには既存手法に従い、テレビキャスターの動画を収録したSpeech2Gesture datasetを用いてテストを行いましたが、そのほとんどはテレビ番組の映像であるため、視聴者やフロントの音などの環境からの干渉が大きく、またspeakerが椅子に座ったり机に寄りかかったりしていることが多いため、ジェスチャーに制約があるなどの問題がありました。

そこで、TEDGesture datasetにある講演の動画とYouTubeから収集した動画によるデータセットを用いて評価を行いました。上図はSpeech2Gesture datasetとTEDGesture datasetのサンプルになります。

Qualitative Results

下図は、本手法と既存手法での定性的な比較結果になります。

この結果から、以下のことが分かります。

既存手法では生成されたジェスチャーに手の変形(図の丸で拡大された部分)が含まれるが、本手法ではそのような変形がほとんど見られない
S2GやTriConで生成されるジェスチャーは、表現力の乏しい小さな動作であることが多い
- このように既存手法は、Ground Truthのデータに見られるような明確なポーズの変化(図の赤枠部分)を生成できていない
これらの既存手法に比べ、本手法のFreeMoはより自然で表現力豊かなジェスチャーを生成することができている

次に、本手法のジェスチャーの多様性を確かめるために、同じ音声に対して、同じ初期ポーズから複数のジェスチャー生成を行いました。(赤枠は生成ジェスチャーとGround truthのジェスチャーにおけるPose modeの遷移を示しています)