DFER-CLIP：革新的なビジュアル言語モデルによる動的顔表情認識

Large language models 2024年04月13日

3つの要点
✔️ FER-CLIPの導入：顔の表情認識（Facial Expression Recognition, FER）の分野において、動的な顔表情認識（Dynamic Facial Expression Recognition, DFER）の精度を向上させるための新しいアプローチ「DFER-CLIP」を提案。
✔️ 技術的な革新： CLIPに基づいた画像エンコーダーと複数のTransformerを使用し、顔表情の時間的特徴と関連テキストを学習。
✔️ 顕著な成果： DFER-CLIPは、3つの主要なベンチマーク（DFEW、FERV39k、MAFW）において、既存のDFER手法よりも優れた性能を達成。

Prompting Visual-Language Models for Dynamic Facial Expression Recognition
written by Zengqun Zhao, Ioannis Patras
(Submitted on 25 Aug 2023 (v1), last revised 14 Oct 2023 (this version, v2))
Comments: Accepted at BMVC 2023 (Camera ready)
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

顔の表情は、人々が日常的に行うコミュニケーションにおいて、欠かせない要素です。これらの表情は、人間とコンピュータの相互作用、運転支援システム、精神健康評価など、多岐にわたる分野で応用されています。このような背景から、顔の表情認識（FER）は、心理学、コンピュータ科学、言語学、神経科学といった多様な学問領域の研究者たちの関心を集めています。顔の表情認識の目標は、人の表情を幸福、悲しみ、驚き、恐怖、嫌悪、怒りといった基本的な感情カテゴリーに分類することです。しかし、従来の認識手法では、表情の動的な変化を捉えることが難しいという課題がありました。そこで、動的な顔の表情認識（DFER）が、より精密な感情理解を目指して研究されています。

初期のDFER研究は、主に制御された環境下での顔表情に焦点を当てていましたが、実際の世界では、顔表情は照明の変化や遮蔽物など、さまざまな要因の影響を受けます。この現実を踏まえ、最近ではより現実に近い条件でのDFER研究が注目を集めています。DFERタスクでは、顔の動きを通じて感情を正確に識別するための、堅牢な特徴表現の学習が重要視されています。

ここで、視覚と言語の事前学習（V-LP）モデルが、新たな可能性を開く技術として現れました。これらのモデルは、画像とテキスト間の意味的関連性を学習することで、強力な視覚表現を獲得することが可能です。特に、DFERタスクにおけるV-LPモデルの応用は、表情認識の精度向上に寄与する可能性があります。しかし、微妙な表情の差異を捉えたり、動的な顔の特徴を学習する上での課題が存在します。

これらの課題に応えるために、この論文では「DFER-CLIP」という新しいアプローチを提案しています。このモデルは、動的な顔の特徴と表情に関連するテキスト記述を統合し、より精密な表情認識を実現します。下図は従来の方法、CLIP、DFER-CLIPの違いの概要を示しています。

また、下図はDFER-CLIPの構造の概要です。cos() はコサイン類似度を示します。 Mは学習可能なコンテキスト番号を示しています。 Cは表情のクラスを示しています。

さらに、実験結果から、DFER-CLIPは、動的な特徴と学習可能なテキストプロンプトを用いることで、既存のDFER手法を上回るパフォーマンスを達成しています。これにより、より自然な環境下での表情認識の精度が向上し、人間とコンピュータの相互理解が深まることが期待されます。

手法

DFER-CLIPは、人間の顔の表情を読み解くために、画像とテキストの両方を活用する革新的なアプローチを提案しています。視覚的側面とテキスト的側面、2つの主要な部分から構成されています。視覚的側面では、CLIP画像エンコーダを基盤とし、時間を通じて顔の特徴を捉えるために、複数のトランスフォーマーエンコーダを用いたモデルを導入しています。最終的に、学習可能なクラストークンを介してビデオレベルの顔の特徴を抽出します。テキスト側では、一般的なクラス名ではなく、顔の振る舞いに関する記述を用いています。さらに、学習可能なプロンプトを導入することで、モデルがトレーニング中に各表情に適したコンテキスト情報を学習できるようにしています。

また、人間の顔の表情は共通の特徴を持ちつつも、固有の特徴を有しています。例えば、幸せや驚きの表情は眉を上げる動作を共有し、悲しみや怒りの表情は眉を下げ、額にしわを寄せる動作が見られます。このような共通点と特異性を踏まえ、DFER-CLIPでは顔の表情のアクション記述をテキストエンコーダの入力として利用します。具体的には、大規模言語モデルを用いて、顔の表情に関する記述を文脈に基づき自動生成するアプローチを採用しています。これにより、各表情クラスに対する詳細な視覚的特徴を網羅的に記述することが可能になります。

言語モデルに以下の入力でプロンプトしています。

Q: {クラス名}の顔の表情に有用な視覚的特徴は何ですか？
A: {クラス名}の顔の表情に有用な視覚的特徴には以下のものがあります：...

生成された各顔の表情クラスの記述子は、包括的な説明を形成するために組み合わされます。

データセット

この研究では、表情認識の精度を評価するために3つの主要なデータセットを使用しています。これらのデータセットは、現実世界のさまざまな状況での感情表現を豊富に含んでおり、DFER-CLIPの有効性を広範囲に検証することを可能にしています。

DFEWデータセットは、世界中の1,500以上の映画から収集された11,697のビデオクリップを含んでいます。これらは、専門家の指導のもとで10人のアノテーターによって7つの基本的な表情（幸福、悲しみ、中立、怒り、驚き、嫌悪、恐怖）に分類されます。ビデオは、極端な照明、遮蔽、さまざまな頭部のポーズなど、多くの挑戦的な条件を含んでいます。データセットは5つの同サイズのパーツに分けられ、5分割交差検証で評価されています。

FERV39kデータセットは、現在、最大の野生のDFERデータセットである38,935のビデオクリップを特色としています。これらのクリップは、犯罪、日常生活、スピーチ、戦争など22の細分化されたシナリオを含む4つのシナリオから収集され、30人のアノテーターによって基本的な表情に注釈が付けられます。ビデオはランダムにシャッフルされ、トレーニングセット（80％）とテストセット（20％）に分割されます。

MAFWデータセットは、10,045のビデオクリップを含むこのデータセットは、11の単一表情カテゴリと32の複数表情カテゴリ、さらに感情的な記述テキストを備えた、最初の大規模マルチモーダル・マルチラベル感情データベースです。このデータセットも5分割交差検証を使用して評価されています。

これらのデータセットは、我々の研究が実世界の複雑な条件下での感情認識の課題にどのように対応するかを理解するための貴重なリソースを提供しています。

実験結果

上述した3つのベンチマークデータセットを使用して、DFER-CLIPに対するアブレーション分析を実施しています。この分析は、モデルの各コンポーネントが全体の性能にどのように影響を与えるかを明らかにすることを目的としています。

ビデオベースの表情認識タスクでは、顔の時間的特徴の学習が重要です。分析の結果、時間モデルの導入により、DFER、FERV39k、MAFWの各データセットにおいて、それぞれ性能が顕著に向上しました。結果は下表のようになります。

しかし、モデルの深さや学習可能なコンテキストの数を増やすことで必ずしも結果が改善されるわけではなく、過学習のリスクが高まることが判明しました。この結果は、適切なバランスの取れたアプローチが最適な性能を達成するために重要であることを示しています。

また、DFER-CLIPモデルでは、従来の分類器ベースのアプローチとは異なり、テキストベースの（分類器フリーの）トレーニング戦略を採用しています。分析の結果、提案手法は、Linear ProbeやFully Fine-tuning方法と比較しても、全てのデータセットで優れた性能を示しました。結果は下表のようになります。

特に、時間モデルを用いずとも、我々のアプローチは分類器ベースの方法を凌駕し、ゼロショット学習の環境下でも顕著な結果を達成しました。

V-LPモデルは、分類器フリーの予測モデルを設計するためにプロンプトを利用することができ、これによりプロンプトエンジニアリングは非常に重要になります。「[クラス]の写真」と「[クラス]の表現」の手動で設計されたプロンプトと比較し、提案方法がDFEWおよびFERV39kデータセットで優れた性能を示し、MAFWデータセットでは若干劣るものの競合する結果を得たことを確認しました。結果は下表のようになります。これは、学習ベースのコンテキストが一貫して優れた結果をもたらすことを示しています。

さらに、DFER-CLIPにおいて、プロンプトの最後に説明を配置し、クラスごとに固有の学習可能なコンテキストを使用するアプローチを採用しています。異なる配置やコンテキスト共有戦略を試験しましたが、説明を最後に配置し、クラス固有のコンテキストを採用することが、最も優れた結果をもたらすことが判明しました。結果は下表のようになります。

この分析を通じて、DFER-CLIPモデルの精度と効率性を最大化するための重要な洞察を得ることができました。ビデオからの感情認識は、日々のコミュニケーションからセキュリティまで、多岐にわたるアプリケーションで重要な役割を果たします。我々の研究は、この分野における技術の進化をさらに加速させることを目指しています。

さらに、DFEW、FERV39k、MAFWの3つの主要なベンチマークを用いて、DFER-CLIPモデルの性能を最先端の手法と比較しました。これらのベンチマークは、それぞれ異なる課題を提供し、顔表情認識技術の精度と汎用性を測るための重要な基準となっています。

DFEWとMAFWにおける実験は、先行研究と同様に5分割のクロスバリデーションを用いて実施しました。FERV39kでは、学習セットとテストセットを使用しています。結果の信頼性と再現性を高めるため、異なるランダムシードを用いてモデルを3回学習し、その平均値を最終結果として採用しました。

結果は下表5のようになります。

DFER-CLIPはUAR（ユーザー平均正解率）とWAR（重み付き平均正解率）の両方で、既存の手法を上回る性能を示しました。具体的には、DFEWではUARで2.05%、WARで0.41%、FERV39kではUARで0.04%、WARで0.31%、MAFWではUARで4.09%、WARで4.37%の改善が見られました。FERV39kが現在最大のDFERベンチマークであり、38,935個のビデオデータを含んでいることを考えると、これらの成果は特に注目に値します。大規模なデータセット上で顕著な改善を達成することは、非常に難しい課題です。

この比較分析を通じて、我々のDFER-CLIPモデルが顔表情認識の分野において、新たな基準を設定したことが確認されました。特に大規模なデータセットにおける性能向上は、今後の研究における有望な進展を示唆しています。

まとめ

この論文では、野外（in-the-Wild）の動的な顔表情認識のための新しいビジュアル言語モデルである「DFER-CLIP」を提案しています。

ビジュアル部分では、CLIP画像エンコーダーをもとに、複数のTransformerエンコーダーからなる時間モデルが導入され、時間的な顔表情特徴をモデリングしています。テキスト部分では、顔の行動に関連する表情記述子が採用され、これらの記述子はChatGPTなどの大規模言語モデルによって生成されます。また、これらの記述子に対する学習可能なコンテキストも設計され、トレーニング中に各表情の関連するコンテキスト情報をモデルが学習するのに役立ちます。

豊富な実験により、DFER-CLIPの各コンポーネントの有効性が実証されています。さらに、提案された方法は、3つのベンチマークで最先端の結果を達成しています。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。