素敵な声のあの人はどんな顔 !?MIT声から顔を予測するモデルを発表

MITが音声から人物の顔の画像を生成する新たな画像解析モデルについての論文を発表しました。実際にどのようなクオリティの予測まで可能なのでしょうか。

参考論文 : Speech2Face: Learning the Face Behind a Voice

声から顔を予測するSpeech2faceモデルとは?

提案された「Speech2Face」は、”音声のみから顔を予測し、画像を自動生成”することができるモデルです。
発話と外観には相関関係があるといわれており、年齢、性別、口の形、顔の骨の構造など、すべてが音声に影響を与えると考えられています。また、言語、アクセント、スピードなどは国、地域、文化などのアイデンティティを反映しています。

これらの音と顔の相関関係をYoutubeなどの動画から人物が話している様子を”顔”と”声”に分けて学習データとし、声から正確に顔が予測できるようにモデルを訓練します。

話者の年齢、性別、人種などの複数の属性を短い話セグメントを通して推測し、その後話者の顔を再構築することができます。

例えば以下のような、一見関連がなさそうな音声データから外観を推測することが可能になります。

 

 

従来のモデルとSpeech2Faceの新規性

これまでも、音声データを元に性別や年齢などの人物を特定する研究や、音声を元に画像を生成する提案はいくつかありました。しかしそれらの多くは与えられた画像から適切なものを選び出すだけで、画像を生成するというアイデアは再現不可能でした。

“音声データのみ”を元に異なるデータ型である”顔の画像”を生成する研究は今回が初めてと言えます。

本モデルの重要なアイデアとして計算過程では、”顔全体を予測するための計算”を行う訳ではなく、下記のように”顔の各パーツの特徴量の相関係数を計算し再現する”ことで予測を行なっています。

これにより、顔の各パーツに特徴を精密に表現することができ、”似ている”人物像を作り上げることができます(パーツが似ている人を作るイメージ)。

モデル概要と学習データ

Speech2faceモデルの概要になります。

学習したデータから最適化されたパラメータを元に画像を生成をする”条件付きGAN”の一種に大別されます。
Youtubeなどの膨大な動画データセットから、音声と人物を入手し、画像の特徴量と音声データから生成された画像の特徴量を識別器にかけます。顔の特徴量は、VGGモデルによって抽出し数字の配列の変換します。ここで重要なのは直接顔画像から特徴量を取得するのではなく、 最後から2番目の層のネットワーク(中間表現)から顔の特徴を抽出しているところです。

一方、音声データも画像の配列と比較する必要があるため、音声元データから配列を生成します。

これら、音声から予測させた”顔”の特徴配列と正解の”顔”の特徴配列を比較し、損失関数を計算し最小化を目指します。この作業を繰り返すことにより、モデルは与えられた音声から考えられる最適な顔画像を生成するパラメータを学習することができます。最後に、既存の学習された顔面復号器モデル(転移学習)を用いて”音声データ”の配列から”顔”を予測します。

 

学習データと相関係数スコア

また、本実験では生成されやすい人種や性別などの偏りが無いかをチェックするため、事前に学習データ同士の変数内の相関係数スコアを調べ、結果にバイアスがかからないかを検討しました。学習データのバイアス、各項目のデータ構成の相関係数スコアは上記 (i) , (ii)のようになりました。各学習データの”人種”,”性別”,”年齢”の偏りに対し、相関係数スコアは比較的均等に分布しています。よって、多種多様な人物の画像生成において平等な結果を期待できることがわかります。

実験

 

(i)生成結果と正解データの比較

顔の各部位に分けて、音声から生成された画像と正解画像の特徴点と判断された場所にポジショニングを行います。次に、それぞれの部位における相関係数を計算します。この結果、求められた各パーツの相関係数を以下の表にまとめました。

ベースラインに対し、それぞれ各パーツにおいて5~20倍程度の相関をもつ画像を生成できることがわかりました。

また、実際に生成された画像の一例と音声主の画像は以下のようになります。大まかではありますが、非常に特徴を捉えた再現度の高い画像が生成されていることがわかります。

(ii)音声データ量による生成画像精度の違い

また、入力する音声データの長さによって、どのように生成画像が変化するかを実験しました。上記画像は上から、音声元画像、3秒間の音声データにより生成された画像、6秒間の音声データにより生成された画像になります。音声データが長いほど、より鮮明かつ元データの特徴を抑えた画像が生成できることがわかります。

(iii)誤生成

上記は、モデルから生成された画像が明らかに元の画像から異なってしまった(誤生成)ケースになります。”話し方”や”声のトーン”により性別や年齢の認証に対し誤作動を起こすケースがあり、今後の改善余地と言えます。

(iv)キャラクター作成

最後に、音声データから生成された画像を元にした、アニメーションキャラクターの顔画像生成を試みました。生成画像からアニメーションへの変換は既存アプリ : Gboard(顔画像からアニメーション画像を生成するアプリケーション)を用いました。

ここで、そのアプリケーションがすごいのでは?と思われる方がいるかもしれませんが、研究という側面を考えると、しっかりと顔認識された事実は音声から生成されたデータとして非常に良い結果であると言えるでしょう。

終わりに

非常に興味深い研究がMITから出てきました。AIの”予測”という能力はついにここまできたか!と僕個人は思いました。既存の研究から、音声から画像への変換モデルと顔認識機能を組み合わせてこのような機能を実現した研究者の応用力に感心します。画像解析技術の発展は著しいものがありますが、”音声”と”画像”のように別の知覚を組み合わせる研究は今後も様々な研究の余地があるでしょう。

しかし、この方法では声からその人の本当のアイデンティティ(すなわち彼らの顔の正確な画像)を回復することはできないとも述べられています。これは、モデルが多くの個人に共通の視覚的特徴(年齢、性別などに関連する)を捉えるように訓練されているためです。そのため、モデルは入力音声と相関する特徴的な視覚的特徴を持つ平均化された顔を生成します。

今後は、音声だけが残っている歴史上の人物の顔復元や声帯認証など、様々なシチュエーションで実用が可能でしょう。ただし、好きな声の人の顔がイメージと違ってショックを受けたり、個人情報の問題など、扱い方には注意が必要かもしれません。