最新AI論文をキャッチアップ

音声のみから発話者に似た顔の3Dメッシュが生成できる!?

音声のみから発話者に似た顔の3Dメッシュが生成できる!?

3D

3つの要点
✔️ 既存のデータセットVoxcelebを拡張し、声と顔のメッシュを対にしたデータセットであるVoxceleb-3Dを作成
✔️ 音声データのみから3次元の顔メッシュを再構成するためのフレームワークであるCross-Modal Perceptionistを提案
✔️ 既存手法にはない感情制御機能を持ったビデオ編集手法を実現

Cross-Modal Perceptionist: Can Face Geometry be Gleaned from Voices?
written by Cho-Ying WuChin-Cheng HsuUlrich Neumann
(Submitted on 18 Mar 2022)
Comments: Accepted to CVPR 2022

Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning(cs.LG); Audio and Speech Processing(eess.AS)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

はじめに

人間が発する声は声帯表情筋顔の骨格などの調音構造によって生成されるため、音声と発話者の顔の形には相関があることが明らかになっており、これまでにもこうした相関を利用して発話者の音声のみからその人物のもっともらしい顔画像を生成する研究などが行われていました。

しかし、こうした音声から顔画像を生成するタスクにおいて、背景や髪型、顔のテクスチャなどの音声と相関のない要素を予測することが出来ないという問題点が挙げられてきました。

本稿で紹介する論文は、"上記のようなノイズの少ない3次元メッシュであれば、より正確な発話者の顔の形状を予測できるのではないか?"という仮説に基づき、音声と人の3次元の顔の形状との相関関係を初めて調査した論文になります。

本論文の主な貢献は以下の2つになります。

  • 音声から発話者の顔の3次元メッシュを生成するための新しいデータセットであるVoxceleb-3Dを作成
  • 音声データのみから3次元の顔メッシュを再構成するためのフレームワークであるCross-Modal Perceptionistを提案

それぞれ見ていきましょう。

Voxceleb-3D

本論文の最大の目的は、音声と人の3次元の顔の形状との相関関係を調査することであり、そのためには大規模な3D顔データセットを取得する必要があります。

この問題に対処するために、本論文では既存研究で使用されていたVoxcleb(有名人の発話音声からなる大規模データセット)とVGGFace(大規模な顔画像データセット)の2つのデータセットを用いて、音声と発話者の3D顔データのペアから構成される新しいデータセットであるVoxceleb-3Dを作成しました。(下図は顔メッシュのサンプル)

具体的には、既存研究によりVoxcelebとVGGFaceから音声と画像のデータの交点を取得し、最も著名な3D顔データセットである300W-LP-3Dで採用されている最適化アプローチを用いて、2D画像から3Dの顔データを適合させることで、Voxceleb-3Dを作成しています。

Voxceleb-3Dに含まれる音声データ、顔画像、3DMMパラメータ、男女比率などの詳細は下の表のようになっています。

また、データセット内の全発話者1225人のうち、A〜Eから始まる名前の人を評価データセット、それ以外を訓練データセットに分割しています。

Cross-Modal Perceptionist

Cross-Modal Perceptionistでは、主成分分析を用いた既存の3D顔生成モデルである3D Morphable Models(3DMM)を用いて音声から3次元の顔メッシュを学習し、教師あり学習と教師なし学習で音声と3次元の顔の形状との相関関係を分析します。

Supervised Learning with Voice/Mesh Pairs

はじめに、下図に示す教師あり学習の手法について解説します。

はじめに、音声と3DMMパラメータのペアが入力されたとき、Mel-Spectrogramを用いて入力音声から音声埋め込みを抽出します。

次に、既存研究に従い音声エンコーダΦvを大規模話者認識タスクで事前学習した後、デコーダΦdecを用いて学習し、3DMMパラメータαを推定します。(図にあるground truthパラメータα*はSupervised Lossの計算に使用されます) 

3D顔データを取得することは、非常に高価であるプライバシーに制限がある顔のランドマークを用いた3DMMフィッティングに時間がかかるなどの様々な問題点があることから、現実的には教師なし学習を使用することが有効であると考えられます。

そこで本論文では、下図に示すknowledge distillationを用いた教師なし学習のフレームワークを提案しています。

このフレームワークは、

  1. GANによる音声から2次元顔画像の合成
  2. 合成された顔画像からの3次元モデリング

の2段階から構成されており、十分に学習された教師モデルを用いることで、実際の顔スキャンのみならず、最適化された3DMMパラメータによっても顔形状を得ることが可能になっています。

まとめると、Cross-Modal Perceptionistの全体像は下図のようになります。

ここでc-kasbは、カーネルサイズaとストライドbを用いたcチャンネル出力の畳み込み層、線形層のdはd次元ベクトルを出力するという意味になります。

Experiments

本論文では、データセットに上記で解説したVoxceleb-3Dを使用して、CMPと既存手法との比較検証およびユーザースタディによる評価を行いました。

既存手法との比較検証

本論文では、以下の評価指標およびベースラインを用いて比較検証が行われました。

評価指標

本論文の評価指標では、既存手法で用いられるARE(Absolute Ratio Error)を使用しており、下のような距離を計測して比較を行います。

 

それぞれの評価指標は、両耳間の距離の比率ER(ear-to-ear ratio)=AB(両耳間の距離)÷EF(両側の外眼部の距離)のように計算され、これらの指標により生成された顔がどの程度変形しているかを捉えることができます。

Baseline

本検証では、GANを用いた音声から画像への変換モデルと、画像から3Dメッシュへの変換モデルという別々に学習した2つの手法を直接カスケードすることで、下図のように音声から3Dメッシュを生成するベースラインを構築しました。

これらの評価指標とベースラインを用いて、本論文のCMPと比較検証を行った結果を下の表に示します。

この結果から、以下のことが分かります。

  • 事前学習した既存モデルを直接カスケードしたベースラインと比較して、CMPによるクロスモーダル学習は非常に良い結果を得られた(約20%の改善)
  • これらの改善により、音声と顔の形状の間に相関があることが明らかになり、音声情報による3D顔メッシュ予測の学習が有効であることが示された
  • 全ての評価指標の中でERが最も顕著な改善を示しており、音声情報による予測が最も有効な指標は顔の幅である可能性が示された

このように、CMPによるクロスモーダル学習により、非常に高い精度で音声情報からの3D顔メッシュを生成できていることが実証されました。

加えて、この結果より示唆された音声情報による予測が最も有効な指標は顔の幅であるという仮説を検証するべく、様々な顔形状による比較検証を行いました。

Face meshes from our supervised learning

下図は、比較検証に用いられた4種類の顔形状(Skinny=痩せ型Wide=面長Regular=普通Slim=細身)と参照画像になります。

図のように、CMPの教師あり学習により参照画像の顔形状と一致した顔メッシュを生成することができており、上記の比較検証で得られた仮説を実証する結果を得ることができました。

まとめ 

いかがだったでしょうか。今回は新規に作成した声と顔のメッシュを対にしたデータセットであるVoxceleb-3Dを用いることで、音声データのみから3次元の顔メッシュを生成することを可能にしたモデルであるCross-Modal Perceptionistについて解説しました。

このモデルにより、音声データのみから高品質な3D顔メッシュが生成できることが実証されただけでなく、音声情報による予測が最も有効な指標は顔の幅であるという非常に興味深い知見を得ることができました。

しかし、音声のみから顔の凹凸やしわなどの顔の詳細な部分を生成するのが困難である、喫煙後や飲酒後などの健康状態による音声の変化が生成の品質に影響を与える可能性があるなどの課題が残っており、今後の動向に注目です。

今回紹介したモデルのアーキテクチャや生成された3D顔メッシュの詳細は本論文に載っていますので、興味がある方は参照してみてください。 

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする