音声から自然な3Dトーキングフェイスを生成する「AVI-Talking」

Face Recognition 2024年08月17日

3つの要点
✔️ 中間の視覚ガイドを利用して音声から表情豊かなトーキングフェイスを生成する新システム「AVI-Talking」を提案
✔️ 大規模言語モデルを活用して、話者の発話状態を捉え、リップシンクと表情の同期を自然に実現。感情の細かなニュアンスを表現
✔️ オーディオとビジュアルのギャップを効果的に埋め、生成プロセスを簡素化

AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D Talking Face Generation
written by Yasheng Sun, Wenqing Chu, Hang Zhou, Kaisiyuan Wang, Hideki Koike
(Submitted on 25 Feb 2024)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

デジタルヒューマンアニメーション、映画のビジュアルダビング、仮想アバターの作成など、エンターテイメント業界では人間の顔のリアルな3Dアニメーションが不可欠です。これまでの研究では、動的な頭部のポーズとオーディオリズムの相関をモデル化したり、感情ラベルやビデオクリップをスタイル参照として使用する方法が試みられてきましたが、これらの方法は表現力に限界があり、感情の細かなニュアンスを捉えきることができませんでした。また、ユーザーが手動でスタイルソースを選択する必要があり、結果として不自然なアプリケーションが生まれがちです。

この論文では、より自然なアプローチを提案します。話している人の感情やスタイルを直接反映させた表情豊かなトーキングフェイスを生成するために、人間のスピーチから得られるスタイル情報を活用することを目指しています。オーディオから多様で現実的な顔の動きを合成することは、正確なリップシンクを維持しつつ、複雑で困難な課題です。この問題に対処するため、私たちはAVI-Talkingという新しいシステムを開発しています。これは、オーディオビジュアル指示システムを通じて、表情豊かなトーキングフェイス生成を可能にします。

AVI-Talkingは、オーディオからの直接学習ではなく、中間の視覚指示表現を用いることで、オーディオビジュアルのギャップを効果的に埋めます。具体的には、このフレームワークは生成プロセスを2つの段階に分け、それぞれに明確な目的を設定することで、最適化の複雑さを大幅に軽減します。さらに、視覚指示を中間出力として提示することで、モデルの解釈可能性が向上し、ユーザーが自らの意向に応じて指示や修正を加えることができる柔軟性を提供します。

この技術によって、エンターテイメント技術の新たな地平を切り開くことを期待されます。

AVI-Talkingの概要

AVI-Talkingは、音声クリップから同期したリップムーブメントと一貫した表情を持つ3Dアニメーションフェイスを生成することを目的しています。直接的なスピーチからトーキングフェイスを合成するのではなく、大規模言語モデルを活用して、生成プロセスを効果的にガイドしています。

下図は、AVI-Talkingのパイプラインの概要です。このシステムは、2つの主要な段階で構成されています。1つ目は「Audio-Visual Instruction via LLMs」です。ここでは、入力されたスピーチから必要なガイドを導き出し、次のステージの橋渡しを行います。2つ目は「Talking Face Instruction System」です。ここでは、ガイドに基づいて、リアルタイムで3Dの顔の動きをシンセサイズします。入力されたスピーチから、3Dパラメトリック係数の時系列を生成することが目的です。

このアプローチにより、話者の自然な表情と口元の動きがリアルに再現され、視聴者にとってよりリアルな視覚体験を提供することが可能としています。

実験と結果

生成されたガイドとトーキングフェイスの品質を定量的に評価しています。評価は2つのカテゴリーに分けられています。1つ目は「Audio-Visual Instruction Prediction」です。ここでは自然言語生成の分野で広く採用されている指標を使用し、BLEU1、BLEU4、METEOR、ROUGE-L、CIDEr、SPICEを利用して生成されたガイドの精度を評価しています。2つ目は「3D Talking Face Synthesis」です。顔の忠実度をGANメトリクスのFIDとKIDで評価し、さらに与えられたスピーチのクリップに対する表情の多様性をダイバーシティスコアで測定しています。また、異なるノイズ条件下でのスタイル特徴の距離を計算することで、生成された表情の変化を定量化し、リップシンクロナイゼーションの精度にはLSE-Dを用いています。

「3D Talking Face Synthesis」に関して、MeadTextとRAVEDESSのデータセットに基づいて得られた結果は、下表に表されています。多くの評価指標において、AVI-Talkingが顕著な性能を示しています。ただし、リップシンクの精度に関しては他の手法と比べて若干劣る場合がありますが、これは主にSyncNetが無表情のビデオに基づいて事前学習された結果、中立的な表情に対するバイアスが影響しているためと考えられます。

AVI-Talkingは表情の豊かさを重視しており、それがスコアに影響を与える一因となっています。しかしながら、基準となる動画に近いLSE-Dスコアを実現し、精密なリップシンク動画の生成が可能であることを示しています。

この論文では、定量的評価も行なっています。生成タスクにおけるモデルの性能を検証する上で、主観的評価は不可欠です。下図は、AVI-Talkingと従来の技術を比較した結果を3つの異なるケースで示しています。結果から、AVI-Talkingは信頼性の高いAudio-Visual Instructionを生成し、話者の状態に応じた表情豊かな顔のディテールを実現していることがわかります。

リップシンクロナイゼーションのパフォーマンスについては、CodeTalkerやFaceformerのような他の手法が、無表情の状態でより自然な発音を生成する場合があることが観察されています。しかし、感情が絡むシナリオでは、リップの動きにわずかな歪みが見られることがあるとしています。また、この観察結果は、定量的評価である前述の表の結果におけるLSE-Dスコアと一致しています。

さらに、この論文では、15名の参加者を対象にユーザースタディを行い、AVI-Talkingと3つの競合する手法で生成された合計30本のビデオに対する評価を収集しています。これらのビデオは、MeadTextのテストセットからランダムに選ばれた20本の話者オーディオと、RAVEDESSから選ばれた10本のオーディオを使用して生成されています。

評価には、業界で広く利用されているMOSを採用しています。参加者は、各ビデオを3つの観点で1〜5のスケールで評価しています。

リップシンクの品質：話し言葉の内容と同期する口の動きを評価
動きの表現力：顔のディテールの豊かさを評価
表情の一貫性：顔の動きと話者の表現の整合性を評価

結果は下表のようになっています。MeshTalkは単純なUNetアーキテクチャ設計のため、全ての側面で最低のスコアを記録しています。一方、トランスフォーマーブロックを導入したEmoTalkとCodeTalkerは、リップシンクの品質でより高いスコアを達成しています。

動きの表現力と表情の一貫性においては、AVI-Talkingが他の手法を大きく上回っています。全体として、AVI-Talkingは表現豊かな合成で他のモデルを凌ぎ、アプローチの有効性を明確に示しています。

まとめ

この論文では、音声に基づく表現豊かな3Dトーキングフェイスを生成する新しいシステム「AVI-Talking」を提案しています。このシステムでは、まず、音声から直接視覚への生成を2つの明確な学習ステップに分解し、中間視覚ガイドを用いることで、音声駆動のトーキングフェイス生成を容易にしています。また、話者の発話状態を捉えるために、大規模言語モデルが持つ文脈的知識を利用する新しいソフトプロンプト戦略を導入しています。さらに、リップシンクとAudio-Visual Instructionを統合するための事前学習手順を構築しています。そして、最後に、拡散事前ネットワークを活用して、Audio-Visual Instructionを潜在空間に効果的にマッピングし、高品質な生成を実現しています。

しかし、いくつかの制約も明らかになっています。特定の話し状態に対する感度が低いこと、そしてトーキングフェイス合成ネットワークが限られた視覚指示に依存することが課題として挙げられています。これは、データセットの不均一性と話者の発話が十分に識別されていないために生じているとしています。

また、今後の研究では、さらなるファインチューニングと、Retrieval Augmented Generation（RAG）技術を用いた知識の注入が検討されています。これにより、大規模言語を特定のクロスモーダルなオーディオビジュアル生成タスクに特化させ、さらに表現力豊かなトーキングフェイスの生成を目指すとしています。さらに、ロバストなビジュアルトークナイザーの使用や、一般的なビジュアル基盤モデルのファインチューニングを通じて、より汎用的で競争力のある結果を導出することが期待されます。これらの進展は、トーキングフェイス生成技術の将来に向けた重要なステップとなることが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。