素敵な声のあの人はどんな顔 !?MIT声から顔を予測するモデルを発表

その他 2019年05月27日

MITが音声から人物の顔の画像を生成する新たな画像解析モデルについての論文を発表しました。実際にどのようなクオリティの予測まで可能なのでしょうか。

声から顔を予測するSpeech2faceモデルとは?

提案された「Speech2Face」は、”音声のみから顔を予測し、画像を自動生成”することができるモデルです。
発話と外観には相関関係があるといわれており、年齢、性別、口の形、顔の骨の構造など、すべてが音声に影響を与えると考えられています。また、言語、アクセント、スピードなどは国、地域、文化などのアイデンティティを反映しています。

これらの音と顔の相関関係をYoutubeなどの動画から人物が話している様子を”顔”と”声”に分けて学習データとし、声から正確に顔が予測できるようにモデルを訓練します。

話者の年齢、性別、人種などの複数の属性を短い話セグメントを通して推測し、その後話者の顔を再構築することができます。

例えば以下のような、一見関連がなさそうな音声データから外観を推測することが可能になります。