動画の登場人物の顔の動きを任意の感情に合わせて編集する手法が登場！

CVPR 2022年08月05日

3つの要点
✔️ 音声を感情に関連する特徴と発話内容に関連する特徴に分離するCross-Reconstructed Emotion Disentanglementを提案
✔️ 推定されたランドマークと入力映像の動きのギャップを埋めるためのTarget-Adaptive Face Synthesisを提案
✔️ 既存手法にはない感情制御機能を持ったビデオ編集手法を実現

Audio-Driven Emotional Video Portraits
written by Xinya Ji, Hang Zhou, Kaisiyuan Wang, Wayne Wu, Chen Change Loy, Xun Cao, Feng Xu
(Submitted on 15 Apr 2021 (v1), last revised 20 May 2021 (this version, v2))
Comments: Accepted by CVPR2021
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

入力された音声に同期するように動画に映る人物の顔を編集するaudio-driven talking headsと呼ばれる研究分野は、映画制作やテレプレゼンスなどにとって大きなニーズがあることから、これまでに様々な手法が提案されてきました。

しかし、こうした先行研究のほとんどが発話内容と人物の口元の相関に焦点を当てたものであり、人間の表情において重要な特徴である感情を考慮した手法は開発されていませんでした。

その理由として、音声のイントネーションに合わせた感情表現をモデル化する際には、以下の課題が挙げられていました。

感情情報は発話内容などの他の特徴と複雑に絡み合っているため、音声から感情を抽出することが困難である点
編集した感情情報を含んだ顔と映像の合成が困難である点

本稿で紹介するEmotional Video Portraits(EVP)は、課題1を解決するためにCross-Reconstructed Emotion Disentanglementを、課題2を解決するためにTarget-Adaptive Face Synthesisを提案し、この分野において初めて感情制御を実現したモデルになります。

Emotional Video Portraits(EVP)の概要

下図に示すように、EVPはCross-Reconstructed Emotion DisentanglementとTarget-Adaptive Face Synthesisという2つの主要な要素から構成されています。

Pseudo Training Pairs（擬似的なトレーニングペアの構築）

音声合成による感情制御を実現するためには、本来複雑に絡み合っている感情に関する情報と発話内容に関する情報を音声信号から独立に抽出する必要があります。

そこで、この情報の分離を行うために既存研究にあるcross reconstructionを使用しますが、この手法では同じ発話内容で異なる感情を持つ音声クリップを同じ長さでペアリングする必要があるため、様々な登場人物が異なる感情状態で同じ内容を話すオーディオビジュアルデータセットを利用し、2つの擬似的なトレーニングペアを構築します。

具体的には、Mel Frequency Cepstral Coefficients(MFCC)を用いて音声情報を取得し、Dynamic Timig Warping(DTW)を用いて、MFCC特徴ベクトルを時間次元に沿って伸縮させる事で2つの音声クリップの長さを揃えます。

こうして作成されたトレーニングペアは、下記のCross-Reconstructed Emotion Disentanglementの学習に使用されます。

Cross-Reconstructed Emotion Disentanglement

Cross-Reconstructed Emotion Disentanglementの学習手順は下図のようになります。

発話内容に関する情報iと感情に関する情報mからなる音声クリップX_i,mと発話内容に関する情報jと感情に関する情報nからなる音声クリップX_j,nから情報を独立に抽出するために、Emotion Encoder(E_e)とContent Encoder(E_c)を使用します。

これにより、2つの情報が完全に分離された時、音声クリップX_i,mとX_j,nから得られたcontent embedding E_c(X_i,m)とemotion embedding E_e(X_j,n)の両方の情報を用いて、Decoder Dから音声クリップX_i,nを再構成することが出来ます。

Target-Adaptive Face Synthesis

本論文では、分離された音声情報により生成された顔のランドマークと映像における登場人物の姿勢や動きのばらつきの間のギャップを埋めるために、Target-Adaptive Face Synthesisという手法を提案しています。

この手法は、以下の3つの工程から構成されています。

分離された音声情報からランドマークの動きを予測するAudio-To-Landmark Module
3次元空間において、生成された顔のランドマークと映像の登場人物の顔のランドマークの位置合わせを行う3D-Aware Keypoint Alignment
生成されたランドマークとターゲットフレームのエッジマップを合成するEdge-to Video Translation Network

1つずつ見ていきましょう。

1.Audio-To-Landmark Module

この工程の目標は、抽出された感情情報の音声クリップからランドマークの位置を動きを予測することであり、そのためには、整列されたランドマークから顔の形状、すなわち動画に映る人物のアイデンティティ情報を変更しないようにすることが必要になります。

そこで、多層パーセプトロンを用いてlandmark identity embedding f_aを抽出し、f_aはcontent embedding E_cとemotion embedding E_eとともにaudio-to-landmark moduleに送られます。

その後、audio-to-landmark moduleはLSTMネットワークによってランドマークl_dを予測します。

2.3D-Aware Keypoint Alignment

頭部のポーズの位置を合わせるために、最初に既存手法を用いて動画上でランドマーク検出を行い、その後にparametric 3D face modelを利用して非線形最適化問題を解くことにより、2Dランドマークから3Dパラメータを復元します。

その後、形状のパラメータと表情のパラメータから、下式のようにポーズ不変な3次元ランドマークの集合であるL^3d_pを求めます。

ここで、mは平均的な顔のランドマークの位置、b^geo_kとb^exp_kは高品質の顔スキャンとブレンドシェイプ(アニメーション手法の1つ)の主成分分析によって計算された形状(geometry)と表情(expression)の基底となっています。

3.Edge-to Video Translation Network

学習により得られたランドマークとターゲットフレームが与えられたら、ランドマークとフレームから抽出されたエッジマップを合成し、ガイダンスマップを作成します。

具体的には、エッジ検出アルゴリズムであるCanny Edge Detectionを用いて顔以外の領域のエッジを検出し、元のランドマークの位置を学習により得られたランドマークに置き換え、その後に隣接する顔のランドマークを連結し、顔スケッチを作成します。

これにより、動画に映る人物の動きに合わせた滑らかでリアルなフレームを生成することが可能になります。

Qualitative Comparisons

本論文では、以下の3つの既存手法との比較を行いました。

ATVGnet(Chen et al.2019)：ランドマークに基づいて顔の動きを合成し、生成品質を向上させるためにattention mechanismを採用した画像ベース手法
Everybody's Talkin'(Song et al.2020)：3次元の顔モデルを応用し、音声による動画編集を実現するビデオベース手法
MEAD(Wang et al.2020)：本手法と最も関連性の高い、感情制御機能を持つ最初の顔生成アプローチ手法

生成結果を下図に示します。

この結果から、以下のことが分かります。

ChanとSongの手法は感情を考慮しないため、もっともらしい口の形状を生成しているが、常に中立的な感情での生成になっている
Wangの手法は感情の情報と発話内容の情報が絡み合った音声信号から直接口の形状を学習するため、予測される口の形状の感情が顔の表情と一致しないことがある(Wangの行の左の赤枠)
- また、Wangの手法は頭部の動きが大きかったり背景が変化するデータに対するロバスト性が十分ではなく、あり得ない表情(Wangの行の中央の表情)や髪型などの特徴が変化する(Wangの行の右の赤枠)ことがある
これらと比較して、本手法は忠実度の高い感情的な顔の映像を生成することが出来ている

このように、本手法が既存手法と比較して非常に優れた性能を持っていることが実証されました。

Quantitative Comparisons

本手法と既存手法を定量的に評価するために、LD(Landmark Distance=生成されたランドマークと実際のランドマーク間の平均ユークリッド距離)とLVD(Landmark Velocity Difference=ランドマーク間の速度差)の2つの指標を用いて、顔の動きを評価しました。

口と顔の領域でLDとLVDを適用し、合成された映像がどれだけ正確な唇の動きと表情を表現しているかを個別に評価し、それに加えて既存手法の評価指標であるSSIM、PSNR、FIDのスコアも比較しました。

結果が下の表になります。

Mは口領域(Mouth)、Fは顔領域(Face region)を表しており、この表から本手法が既存手法と比較して全ての指標で優れた数値を出している事が確認できます。

User Study

生成されたビデオクリップの品質を定量化するために、本手法と3つの既存手法と実ビデオを用いて以下の条件下でuser studyを行いました。

8つの感情カテゴリと3人の話者それぞれについて3つのビデオクリップを生成し、合計72個のビデオに評価を行った
評価は２段階で行われ、最初に参加者は与えられたビデオについて音声と映像の品質について評価してもらい、1(最悪)から5(最高)までのスコアをつけてもらう
- その後に背景音なしの実ビデオクリップを見た後で、生成された音声なしのビデオに対して感情カテゴリを選択し、適切な感情表現の生成が出来ているかを評価する

50人の参加者によるアンケート結果を以下に示します。

このように、本手法は生成されたビデオの品質と音声との同期性の両方において最も高いスコアを獲得していることが確認でき、感情分類についても、既存手法と比較して最も高い精度であると評価されました。

まとめ

いかがだったでしょうか。今回はCross-Reconstructed Emotion DisentanglementとTarget-Adaptive Face Synthesisを用いて感情制御機能を持ったビデオ編集を可能にしたモデルであるEmotional Video Portraits(EVP)について解説しました。

生成ビデオを確認してみると分かりますが、本手法により"Happy"や"Angry"などの条件に合わせた非常に自然な表情の合成が出来ており、この論文を基にこの研究分野のさらなる進展が期待されます。

今回紹介したモデルのアーキテクチャや生成ビデオの詳細は本論文に載っていますので、興味がある方は参照してみてください。