【CelebV-Text】テキストから人の顔動画の生成ためのデータセット
3つの要点
✔️ 顔に関するテキスト-動画の初の大規模データセット「CelebV-Text」を提案
✔️ テキストから顔の動画をする生成タスクの標準化を促進するため、新しいベンチマークを構築
✔️ 動画とテキストの品質と多様性、そしてテキスト-動画の関連性を検証するための包括的な統計分析を実施
CelebV-Text: A Large-Scale Facial Text-Video Dataset
written by Jianhui Yu, Hao Zhu, Liming Jiang, Chen Change Loy, Weidong Cai, Wayne Wu
(Submitted on 26 Mar 2023)
Comments: Accepted by CVPR2023. Project Page: this https URL.
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
近年、生成モデルがテキストから動画を生成したり、編集するなど、大きな注目を集めています。しかし、人の顔に関する動画を生成する分野では、適切なデータセットが不足しているため依然として課題とされています。特に、生成される動画フレームの品質が低かったり、入力テキストとの関連性が弱いといった問題があります。この論文では、これらの課題を解決するために、テキストから人の顔の動画を生成するための大規模データセット「CelebV-Text」を開発しています。テキストと動画のペアによる大規模かつ高品質なデータセットです。
CelebV-Textは、70,000本の多様な顔の動画クリップと、それぞれに20個のテキストの説明文が付けられたデータセットです。これらのテキストの説明文は、半自動テキスト生成を用いて生成され、静的および動的な属性に関する詳細な情報が含まれています。他データセットと比較して、動画、テキスト、テキストと動画の関連性について、包括的な統計分析が行われています。また、このデータセットの有用性は、広範な実験によっても示されています。
データ収集、データアノテーション、半自動テキスト生成を含む包括的なデータ構築パイプラインを設計し、テキスト-動画の生成の新しいベンチマークも提案しています。さらに、代表的なモデルで評価を行い、その結果、生成された顔の動画とテキストの関連性が向上し、時間的一貫性が大幅に改善されています。
データセットの構築
高品質な顔に関するテキスト-動画の大規模なデータセットを構築するために、データ収集と処理、データアノテーション、半自動テキスト生成を含む効率的なパイプラインを提案しています。
まず、データの収集において、CelebV-HQと同様の方法を採用しています。人名、映画タイトル、Vlogなどのクエリを生成し、時間的に動的な状態変化と豊富な顔属性を含む動画を取得しています。これらのデータはオンライン上のリソースからダウンロードされ、その中から、低解像度(512×512未満)、短時間(5秒未満)、CelebV-HQに既に含まれている動画を除外しています。
また、アノテーションは、CelebV-Textのテキストと動画の関連性に大きな影響を与える重要なプロセスであるため、特に慎重に設計が行われています。
動画は画像と異なり、時間的な変化が含まれます。しかし、多くの顔動画のデータセットでは時間とともに変わらない静的属性に焦点が当てられています。そこで、この論文では、顔動画を静的属性(Static)と動的属性(Dynamic)に分類し、詳細にアノテーションを行っています。
静的属性として、現行のデータセットは外観属性のみを考慮していますが、CelebV-Textでは一般的な外観だけではなく、詳細な外観、光の条件の3つの属性を含んでいます。詳細な外観には、傷、ほくろ、そばかす、えくぼ、片目の5クラスがあり、光の条件には、光の色温度と明るさを含む6クラスがあります。
さらに、動的属性として、動作、感情、光の方向の3つの造成が設計されています。動作属性はCelebV-HQを参考に拡張され、感情属性はAffectnetの8つの感情設定を採用しています。光の方向については、6クラスがあります。また、CelebV-HQと同様に、動的属性には開始と終了のタイムスタンプも付与されています。
このように、CelebV-Textのアノテーションは、動画の時間的な変化を詳細に捉え、テキストと動画の関連性を高めるために設計されています。
また、CelebV-Textでは、データセットの品質とコストを最適化するため、これらの属性設計に基づいて、自動アノテーションと手動アノテーションを組み合わせた手法を導入しています。
自動アノテーションが可能な属性については、まずアルゴリズムを調査し、85%以上の精度を持つものを選定しています。光の条件、外観、感情ラベルが自動アノテーションされています。自動アノテーションでは、さらに人間が修正することで精度を向上させています。動的属性や詳細な外観属性については、手動でのアノテーションが必要です。アノテーションの作業者が自然で適切な説明文を作成しています。
このように、自動と手動のアノテーションを効果的に組み合わせることで、高品質なデータセットを効率的に構築しています。
さらに、一般的なマルチモーダルのテキスト-動画データセットでは、字幕、手動テキスト生成、自動テキスト生成を利用してテキストを生成しています。しかし、これらにはそれぞれ課題があります。字幕は取得が簡単ですが、関連性が低く、ノイズが多くなります。手動生成は時間とコストがかかり、規模を拡大するのが難しくなります。そして、自動生成は規模を拡大しやすいもののですが、生成されるテキストの多様性、複雑性、自然さに課題があります。
これらの問題を解決するために、この論文では、手動と自動の両方の利点を組み合わせた「半自動テンプレートベースのテキスト生成」を提案しています。この方法では、まずアノテーション担当者が各属性について10本の異なる顔動画の説明文を作成し、その文法構造を分析します。次に、確率文脈自由文法を利用して独自のテンプレートを設計し、生成されるテキストの多様性を高めています。
これらの方法により、自然で多様なテキストを効率的に生成することが可能となり、品質の高いテキスト-動画データセットをスケーラブルに構築できます。
データセットの統計分析
この論文では、CelebV-Textを他の主要な顔動画データセットと比較し、動画、テキスト、テキストと動画の関連性について包括的な分析を行っています。
CelebV-Textには、約70,000本の動画クリップが含まれており、合計の再生時間は約279時間です。各動画には、6つの属性すべてを説明する20の説明文がついています。また、他のデータセットに比べて規模が大きく、高解像度です。例えば、VoxCeleb2はサンプル数は多いものの、主に話している顔が中心であるため、動画の種類(分布)が限られています。CelebV-HQとCelebV-Textのサンプルは、多様なクエリを用いて収集されているため、種類(分布)は多くなっています。特に、CelebV-Textは動画データが約2倍、動画属性が多く、テキストの説明文の関連性も高くなっています。唯一の既存の顔に関するテキスト-動画のデータセットであるMM-Voxと比較しても、規模と品質の点で優れています。
また、CelebV-Textの属性分布を示すため、一般的な外観、動作、光の方向属性をグループに分けています。顔の特徴(例:二重あご、大きな鼻、卵型の顔)は約45%を占めており、基本グループは約25%、ひげタイプは約12%を占めています。髪型とアクセサリーのグループはそれぞれ約10%と8%を占めています。動作属性では、頭に関連する動作が約60%、目に関連する動作が約20%です。インタラクショングループ(例:食事)、感情グループ(例:笑う)、日常グループ(例:寝る)はそれぞれ約9%、7%、4%を占めています。光の方向では、ほとんどのサンプルが正面照明を含み、残りは均等に分布しています。
収集した動画の品質を分析し、CelebV-Textの優位性を示すために、MM-Vox、CelebV-HQと比較しています。画像および動画の品質を評価するために、BRISQUEとVSFAを使用しています。すべてのデータセットの画像品質はCelebV-TextおよびCelebV-HQが高く、MM-Voxよりも大幅に高い品質を示しています。動画品質も同様に、CelebV-Textが最も高い品質を示しており、動画分割方法により背景の切り替え中の不連続性が軽減されたためと考えられます。
CelebV-Textのテキストは、MM-VoxやCelebV-HQよりも長く、詳しく書かれています。平均のテキストの長さはそれぞれ28.39、31.06、67.15です。包括的なアノテーションによって、CelebV-Textの動画の説明文にはより多くの単語が含まれています。
言語的な多様性を検証するため、3つのデータセット間でユニークな品詞(動詞、名詞、形容詞、副詞)を比較しています。包括的に設計された属性リストとテンプレートによって、CelebV-Textはより広範なテキストを持ち、時間的に静的および動的な顔の属性を幅広く網羅しています。
さらに、MM-Voxと比較して、CelebV-Textのテキストの自然さと複雑さを検証しています。文法構造と同義語の置換により、CelebV-Textの言語的自然さと複雑さが大幅に向上していることがわかります。
さらに、テキストと動画の関連性を定量的に検証するため、MM-Vox、CelebV-HQ、CelebV-Textの3つのデータセットでテキスト-動画検索タスクを実施しています。評価指標として、Recall@K(R@K)、中央値ランク(MdR)、平均ランク(MnR)を使用しています。なお、R@Kが高く、中央値ランクと平均ランクが低いほどパフォーマンスが良いことを示しています。
まず、一般的な外観の説明文を含むテキストを用いたパフォーマンスを評価しています。CelebV-HQとCelebV-Textの結果はどちらもMM-Voxよりも優れており、設計したテンプレートがMM-Voxよりも動画に関連するテキストを生成できることを示しています。次に、動的な感情変化に関する説明を追加した結果、両データセットで同様の結果が得られ、静的な外観属性のアノテーション精度が高いことを示しています。また、動作の説明を追加し、ほとんどの指標で最高のパフォーマンスを達成しています。
データセットの有用性検証
ここでは、CelebV-Textデータセットの有効性を検証するために、テキストから顔の動画の生成を行い、代表的な手法を用いて同タスクのベンチマークを行っています。
CelebV-Textが持つ静的および動的属性の説明文の効果を示すため、最新のオープンソースの手法であるMMVIDに基づき、CogVideoと比較するいくつかの実験を行っています。
まず静的属性におけるCelebV-Textデータセットの有効性を検証するため、一般的な外観、顔の詳細、光の条件の説明に基づいて動画を生成しています。CelebV-Textを用いてMMVIDをゼロから学習し、各静的属性の個別の説明文を含む3つの入力テキストを生成しています。そして、生成されたテキストをMMVIDとCogVideoに入力し、動画の出力を比較しています。
一般的な外観の可視化結果は下図(a)に示されています。CogVideoはテキストの説明文に基づいて顔の動画を生成していますが、「目の下のクマ」や「波状の髪」など、テキストと動画の関連性が低いことがわかります。一方、MMVIDはテキストに記載されたすべての属性を含む動画を生成し、高い関連性を示しています。
また、動的属性の変化(例:感情、動作、光の方向)に基づいて、CelebV-Textの有効性を検証しています。上図(b)では、CogVideoが入力テキストに記載されている時間的変化(例:笑顔→回転)を反映できないことがわかります。しかし、CelebV-Textで学習されたMMVIDは、動的属性の変化を正確にモデリングし、データセットの有効性を示しています。
なお、CogVideoはMMVIDよりも約100倍大きなモデルサイズを持ち、CelebV-Textの約75倍のテキスト-動画データセットで学習されていますが、上図に示すように、CogVideoが生成する動画サンプルはMMVIDがCelebV-Textのみで学習したものよりも品質が低いことがわかり、この論文で提案しているデータセットの有効性を示していると言えます。
テキストから動画生成の技術は急速に進化しており、その中でも顔の動画生成における唯一のベンチマークは、MM-Voxです。この論文では、このベンチマークを拡張し、MM-Vox、CelebV-HQ、CelebV-Textの3つのデータセットを用いて新たなベンチマークを構築しています。これにより、テキストから顔の動画を生成タスクの性能を総合的に評価することが可能になっています。性能評価には、TFGANとMMVIDの2つの手法を選定しており、以下の指標に基づいて評価しています。
- FVD:時間的一貫性を評価
- FID:各フレームの品質を評価
- CLIPSIM:テキストと生成動画の関連性を評価
定量評価には静的および動的属性を含むバリアントテキストを使用し、ベースライン手法を検証しています。結果は下表に示されているように、MMVIDがTFGANに比べて優れた値を示しています。また、入力テキストに時間的な状態変化が含まれている場合、MMVIDの生成動画の品質が低下することがわかりました。
下図は、異なるデータセットで学習されたMMVIDによる動画のサンプルを示しています。これらの動画フレームは128×128ピクセルで、時間的一貫性があり、高品質であることがわかります。しかし、MMVIDでは、時々、入力テキストに記載された属性を完全に再現できないこともわかります。
まとめ
この論文では、静的、動的な属性を持つ大規模な顔のテキスト-動画のデータセット「CelebV-Text」を提案ています。このデータセットには、70,000本の動画クリップが含まれており、それぞれの動画には静的、動的な要素を記述する20の個別のテキストが付いています。そして、広範な統計分析と実験を通じて、CelebV-Textの優位性と有効性をしています。
また、この論文では、今後の計画として、CelebV-Textの規模と多様性をさらに拡大する予定としています。また、CelebV-Textを基にした新しいタスク(動画顔の細粒度制御、一般的な事前学習モデルの顔領域への適応、テキスト駆動の3D認識顔動画生成など)への応用が期待されます。
この記事に関するカテゴリー