スピーチに応じた上半身のジェスチャーを自動で生成するモデル、FreeMoが登場!
3つの要点
✔️ スピーチに応じた上半身のジェスチャーを自動で生成するモデルであるFreeMoを提案
✔️ これまでのジェスチャー生成モデルとは異なる、Pose mode branchとRhythmic motion branchを用いた生成手法を提案
✔️ 多様性、品質、同期性の面で既存のベースラインを上回る性能を実証
Freeform Body Motion Generation from Speech
written by Jing Xu, Wei Zhang, Yalong Bai, Qibin Sun, Tao Mei
(Submitted on 4 Mar 2022)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Sound (cs.SD); Audio and Speech Processing (eess.AS)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
上手な話し手は、情報を効果的に伝えるためにスピーチと同時にジェスチャーを行なっており、デジタルアバターやソーシャルロボットのようなアプリケーションの実現の上でも、このようなジェスチャーは必要不可欠になっています。
しかし、スピーチに合わせた口唇の動きを生成する研究は広く行われていますが、発話からジェスチャーへの変換は非常に不確定要素が多い面を保つため、これまで未発展のままでした。
具体的には、同一人物が2回続けて同じスピーチをしたとしても、同じジェスチャーを示すとは限らない、長時間のスピーチでは時々ポーズが切り替わる可能性がある、長時間のスピーチのジェスチャー生成が困難であるなどの様々な問題がありました。
本稿で紹介するFreeMo(Free form Motion generation model)は、ジェスチャーをPose modeとRhythmic motionの2つのモジュールに分解することで、これらの問題を解決し、スピーチに応じた上半身のジェスチャーを自動で生成する事に成功したモデルになります。
FreeMoの概要
FreeMo(Free form Motion generation model)のモデル概要は下図のようになっています。
音声合成によるジェスチャー生成とは、入力音声に対応する動作シーケンスを生成することであり、そのためには音声からジェスチャーへの対応づけが必要になります。
しかし、このようなマッピングは非常に非決定的かつマルチモーダルであり、既存研究での課題になっていました。
本手法では、この問題を解決するために、ジェスチャー生成をPose mode branchとRhythmic dynamics branchの2つの相補的なマッピングに分解するアプローチを提案しています。
Pose mode branchでは、VAEの潜在空間における条件つきサンプリングにより多様な上半身のポーズを生成する役割を果たし、Rhythmic dynamics branchでは、生成されるポーズを音声の韻律に同期させる役割を果たします。
既存のジェスチャー生成モデルとの比較検証
本実験では、以下の5つのモデルを用いて比較実験が行われました。
- Audio to Body Dynamics (Audio2Body): 音声からジェスチャーへの変換にRNNネットワークを採用している
- Speech2Gesture (S2G): 音声からジェスチャーを生成するためにCNNネットワークを採用している
- Speech Drives Template (Tmpt): 音声から体の動きへのマッピングの曖昧さを解消するために、Gesture Templateを学習する
- Trimodal-Context (TriCon): RNNネットワークを採用し、音声、テキスト、SpeakerIDの3つを入力として学習する
- Mix-StAGE: speakerごとの固有のstyle embeddingを学習する生成モデル
また、データセットには既存手法に従い、テレビキャスターの動画を収録したSpeech2Gesture datasetを用いてテストを行いましたが、そのほとんどはテレビ番組の映像であるため、視聴者やフロントの音などの環境からの干渉が大きく、またspeakerが椅子に座ったり机に寄りかかったりしていることが多いため、ジェスチャーに制約があるなどの問題がありました。
そこで、TEDGesture datasetにある講演の動画とYouTubeから収集した動画によるデータセットを用いて評価を行いました。上図はSpeech2Gesture datasetとTEDGesture datasetのサンプルになります。
Qualitative Results
下図は、本手法と既存手法での定性的な比較結果になります。
この結果から、以下のことが分かります。
- 既存手法では生成されたジェスチャーに手の変形(図の丸で拡大された部分)が含まれるが、本手法ではそのような変形がほとんど見られない
- S2GやTriConで生成されるジェスチャーは、表現力の乏しい小さな動作であることが多い
- このように既存手法は、Ground Truthのデータに見られるような明確なポーズの変化(図の赤枠部分)を生成できていない
- これらの既存手法に比べ、本手法のFreeMoはより自然で表現力豊かなジェスチャーを生成することができている
次に、本手法のジェスチャーの多様性を確かめるために、同じ音声に対して、同じ初期ポーズから複数のジェスチャー生成を行いました。(赤枠は生成ジェスチャーとGround truthのジェスチャーにおけるPose modeの遷移を示しています)
ここで注目すべきは、Pose mode branchにより、任意の初期ポーズから多様なジェスチャーの生成が可能になっている点と、Rhythmic motion branchにより生成されたジェスチャーが音声と十分に同期している点です。
Subjective Evaluation
本論文ではさらに、以下の条件下でいくつかのベースラインに対するuser studyを実施しました。
- 各データセットにおいて、50個の10〜30秒で調整されたテストオーディオクリップをランダムに選択する
- 10人の参加者に協力してもらい、各自にランダムに選んだ10個のオーディオクリップのビデオを視聴してもらった
- 参加者には、異なるモデルによって生成されたビデオを、1〜6までの6段階評価で回答してもらった(1が最も悪く、6が最も良い)
下図は、10人のスコアの平均点を示しています。
どちらのデータセットでも、本論文の提案するFreeMoが最も高いスコアを示し、多くのユーザにとってより自然で表現力豊かなジェスチャーを生成できていると評価されました。
まとめ
いかがだったでしょうか。今回は、スピーチに応じた上半身のジェスチャーを自動で生成するモデルであるFreeMo(Free form Motion generation model)を紹介しました。
本研究の結果は、ロボティクスの分野で採用されているソーシャルロボットや、Metaverseで普及しているデジタルアバターなどのアプリケーションに不可欠な、バーチャルエージェントの構築につながる非常に興味深い内容であると言えます。
一方で、こうした技術がフェイクビデオの生成などに悪用される危険性も考えられるため、注意が必要です。
今回紹介したモデルのアーキテクチャや生成されたジェスチャーの詳細は本論文に載っていますので、興味がある方は参照してみてください。
この記事に関するカテゴリー