会話の聞き手の反応を生成するモデルが登場！？

3D 2022年09月30日

3つの要点
✔️ 話し手の動作と音声のモダリティを合成するmotion-audio cross-attention transformerを提案
✔️ 聞き手の動きの離散的な潜在表現を学習するsequence-encoding VQ-VAEを導入
✔️ ビデオ撮影された二人組の会話からなる大規模なデータセットを作成

Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion
written by Evonne Ng, Hanbyul Joo, Liwen Hu, Hao Li, Trevor Darrell, Angjoo Kanazawa, Shiry Ginosar
(Submitted on 18 Apr 2022)
Comments: Conference on Computer Vision and Pattern Recognition (CVPR) 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

二人組の会話において、話し手と聞き手の協調性は必要不可欠な要素であり、既存研究においても頭の動きなどの聞き手からの非言語的なフィードバックは、会話の流れを維持する上で返答の内容よりも重要であることが分かっています。

しかし、こうした対面での会話における非言語的フィードバックのモデリングは、

話し手は発話による言語的コミュニケーションと顔や体の動きによる非言語的コミュニケーションの両方を行うためマルチモーダルである
聞き手の反応が非決定的である

という理由から非常に困難なタスクになっており、自然な対話をモデリングするためには、この2つの課題に取り組む必要がありました。

本稿では、二人組の会話からなる新規かつ大規模なデータセットを用いたデータドリブンな手法で上記の2つの課題を解決した論文を紹介します。

本論文では、下図のように入力された話し手の動画から音声と顔の動きを抽出し、話し手と同期した聞き手の様々な反応を生成することを可能にしたモデルになります。

この時、話し手の動作と音声のモダリティを合成するmotion-audio cross-attention transformerと、聞き手の動きの離散的な潜在表現を学習するsequence-encoding VQ-VAEを用いる事で、話し手のマルチモーダルな情報からそれに対応する聞き手の反応を自己回帰的に予測することが可能になっています。

本モデルとデータセットについて詳しく見ていきましょう。

モデルの概要

本論文の目的は、対面コミュニケーションにおける話し手と聞き手の相互的な反応をモデル化することであり、この目的を達成するために、話し手の3D顔モデルと音声が与えられた時の対応する聞き手の顔の動きを自己回帰的に予測するタスクを設定しました。

本モデルは下図のように、話し手からのマルチモーダルな入力を条件として、対応する聞き手の反応に関する分布を予測します。

この時、話し手の音声と顔の動きをモデル化するために、本論文では2つのモダリティを融合して学習するための新規のtransformerであるmotion-audio cross-modal transformerを提案しています。

加えて、VQ-VAEをモーション合成領域に拡張し、離散的な潜在空間を学習することを可能にしたsequence-encoding VQ-VAEを使用することで、聞き手の次のタイムステップの反応に対する多項分布を予測することに成功しています。

これにより得られる出力は、話し手に同期した聞き手の反応に関する分布であり、そこから複数のモーションをサンプリングすることができます。

Conversational Dataset

近年のCOVID-19の流行により、ビデオインタビューをする際、話し手と聞き手が画面の片方ずつに映る画面分割型のテレビ会議プラットフォームに移行している傾向があり、こうした方式は両者が直接カメラに向かい合うため、対面でのコミュニケーションを研究する上で非常に都合が良いという側面があります。

そうした背景から本論文では、6つのYouTubeチャンネルから72時間分の顔の動きと音声を抽出し、様々な場面や人物の表情を収録した学習用データセットを作成しました。

こうして得られたビデオに対して、既存の表情抽出手法であるDECAを用いて、実写映像から3Dモデルの頭部姿勢と表情を復元しています。（データセットのサンプル動画はこちらで確認できます）

訓練時は、これらの表情・姿勢・話し手の音声を擬似的なground truthとして用いて予測モデルを学習します。

Experiments

本研究では、話し手の音声と動作を聞き手の動作に変換する提案モデルの有効性を評価するために、ベースラインとの比較検証が行われました。

ベースラインとの比較検証

本論文では、会話の聞き手は（1）リアルな動き、（2）多様な動き、（3）話し手の動きと同期した動きを見せるべきであるという考え方に基づき、複数の軸に沿って本モデルの予測を評価しています。

具体的には、下の評価指標に従い、聞き手の顔の表情(expression)と動き(rotation)を別々に評価しています。

L2: ground truthのexpressionの係数をポーズの値で割ったユークリッド距離
Frenche Distance(FD): 生成されたモーションシーケンスとground truthのモーションシーケンスとの間の分布距離によって測定される値
variation: シーケンス全体のモーションのばらつき
SI: 予測値の多様性
Paired FD(P-FD): 聞き手と話し手のペアの分布距離から同期の度合いを測定する値
PCC: 心理学の分野でグローバルな同期性を定量化するためによく使われる指標であるPearson Correlation Coefficient

また、これらの評価指標を以下のベースラインと比較しました。

NN motion: グラフィックの合成の際によく使用されるセグメントサーチ法であり、話し手のモーションが与えられたら、トレーニングセットからその近傍を見つけ、対応する聞き手のセグメントを予測値として使用する手法
NN audio: 上記と同じ手法だが、事前学習したVGGishから得られた音声埋め込みを使用する
Random: トレーニングセットからランダムに選ばれた聞き手の64フレームのモーションシーケンスを返す
Median: トレーニングセットから表情や姿勢の中央値を返す
Mirror: 話し手の動きを平滑化して返す
Delayed Mirror: 17フレーム(約0.5秒)遅延させた話し手の平滑化された動きを返す
Let's Face It(LFI): SOTAの3Dアバター生成手法を本論文のデータセットで再学習している
Random Expression: 各タイムステップでランダムな表情を返す

検証結果を下の表に示します。

表から、本手法は様々な評価指標で最もバランスの良い性能を達成していることが分かり、聞き手の動きのリアルさ・多様性・話し手との同期性を十分に達成できていると言える結果になりました。

まとめ

いかがだったでしょうか。今回は二人組の会話における話し手と聞き手の動きの同期性をモデル化することを目的とし、話し手の入力の複数のモダリティに対応するmotion-audio cross-attention transformerと、聞き手の非決定的な反応の合成を可能にする新規のsequence-encoding VQ-VAEを提案したモデルについて解説しました。

ベースラインとの比較検証により、本手法は非常に高精度に聞き手の反応を生成できることが実証されましたが、作成されたデータセットは遠隔によるビデオ撮影によるものであるため、直接のアイコンタクトがない、遠隔接続による遅延が発生しているなどの課題点も残されているため、今後の動向に注目です。

今回紹介したデータセットやモデルのアーキテクチャの詳細は本論文に載っていますので、興味がある方は参照してみてください。