音声のみから発話者に似た顔の3Dメッシュが生成できる！？

3D 2022年08月19日

3つの要点
✔️ 既存のデータセットVoxcelebを拡張し、声と顔のメッシュを対にしたデータセットであるVoxceleb-3Dを作成
✔️ 音声データのみから3次元の顔メッシュを再構成するためのフレームワークであるCross-Modal Perceptionistを提案
✔️ 既存手法にはない感情制御機能を持ったビデオ編集手法を実現

Cross-Modal Perceptionist: Can Face Geometry be Gleaned from Voices?
written by Cho-Ying Wu, Chin-Cheng Hsu, Ulrich Neumann
(Submitted on 18 Mar 2022)
Comments: Accepted to CVPR 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning(cs.LG); Audio and Speech Processing(eess.AS)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

人間が発する声は声帯、表情筋、顔の骨格などの調音構造によって生成されるため、音声と発話者の顔の形には相関があることが明らかになっており、これまでにもこうした相関を利用して発話者の音声のみからその人物のもっともらしい顔画像を生成する研究などが行われていました。

しかし、こうした音声から顔画像を生成するタスクにおいて、背景や髪型、顔のテクスチャなどの音声と相関のない要素を予測することが出来ないという問題点が挙げられてきました。

本稿で紹介する論文は、"上記のようなノイズの少ない3次元メッシュであれば、より正確な発話者の顔の形状を予測できるのではないか？"という仮説に基づき、音声と人の3次元の顔の形状との相関関係を初めて調査した論文になります。

本論文の主な貢献は以下の2つになります。

音声から発話者の顔の3次元メッシュを生成するための新しいデータセットであるVoxceleb-3Dを作成
音声データのみから3次元の顔メッシュを再構成するためのフレームワークであるCross-Modal Perceptionistを提案

それぞれ見ていきましょう。

Voxceleb-3D

本論文の最大の目的は、音声と人の3次元の顔の形状との相関関係を調査することであり、そのためには大規模な3D顔データセットを取得する必要があります。

この問題に対処するために、本論文では既存研究で使用されていたVoxcleb(有名人の発話音声からなる大規模データセット)とVGGFace(大規模な顔画像データセット)の2つのデータセットを用いて、音声と発話者の3D顔データのペアから構成される新しいデータセットであるVoxceleb-3Dを作成しました。(下図は顔メッシュのサンプル)