最新AI論文をキャッチアップ

GPT-4Vを用いた一般化感情認識(GER)の総合的評価

GPT-4Vを用いた一般化感情認識(GER)の総合的評価

Large language models

3つの要点
✔️ 感情認識におけるGPT-4Vのパフォーマンスを定量的に評価した最初の研究
✔️ GPT-4Vの視覚感情分析、微表情認識、顔感情認識、動的顔感情認識、マルチモーダル感情認識の5つのタスクの定量評価
✔️ GPT-4Vは視覚感情分析で優れた性能を示し、教師ありを上回る結果を示すが、微表情認識は専門知識が必要なため性能が低下

GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition
written by Zheng Lian, Licai Sun, Haiyang Sun, Kang Chen, Zhuofan Wen, Hao Gu, Bin Liu, Jianhua Tao
(Submitted on 7 Dec 2023 (v1))
Comments: P
ublished on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Multimedia (cs.MM)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

感情は人間とコンピュータの相互作用において重要な役割を担っているため、感情認識は研究者から注目されています。現在の感情認識の研究は主に2つの側面に焦点を当てています。1つは、刺激によって引き起こされる感情を識別し、視聴者がこれらの刺激を見た後にどのように感じるかを予測することです。もう1つは、画像やビデオにおける人間の感情を分析することです。この論文では、これらのタスクを総称して「一般化感情認識(GER)」と読んでいます。

感情は、テキスト、オーディオ、ビデオなどのさまざまなモダリティを通じて伝えられます。その中でも、視覚情報(色彩、明るさ、表情、人間の行動など)は、感情に関連する豊富なコンテンツを含んでおり、一般化感情認識タスクにおいて重要な役割を果たします。視覚理解能力を向上させるために、研究者はさまざまなアルゴリズムを提案し、顕著な進展を遂げてきました。深層学習の発展に伴い、現在の一般化感情認識の研究は、手作業の特徴量設計から深層ニューラルネットワークへとシフトしています。

最近、GPT-4Vはさまざまなタスクにおいて印象的な視覚理解能力を示しています。これにより、GPT-4Vが一般化感情認識の問題をどの程度解決できるか、またGPT-4Vの登場後、今後の研究の方向性はどうなっていくのかという疑問が生じます。

2023年9月、GPT-4VがChatGPTに統合され、その視覚能力を調査するユーザーレポートが発表されました。しかし、これらのレポートは一般的にタスクごとのサンプル数が限られており、GPT-4Vに関する定性的な洞察しか提供できません。OpenAIは2023年11月にAPIをリリースしましたが、当初は1日あたり100リクエストに制限されていました。そのため、ベンチマークデータセットに対する最先端のシステムと比較してGPT-4Vを評価することは難しいままでした。最近、OpenAIは1日のリクエスト制限を増加させ、より総合的な評価を行うことができるようになりました。

この論文では、一般化感情認識タスクにおけるGPT-4Vの定量的評価結果を提供し、視覚感情分析、微表情認識、顔感情認識、動的顔感情認識、マルチモーダル感情認識を網羅しています。

下図はGPT-4Vの全体的な結果を示しています。GPT-4Vはランダム推測よりも優れていますが、教師ありシステムにはまだ及びません。その理由を解明するために、マルチモーダル融合能力、時間的モデリング能力、色空間の堅牢性、予測の一貫性など、GPT-4Vの多面的なパフォーマンスを総合的に分析しています。


この論文が後続の研究者に示唆を提供し、GPT-4Vが効果的に対処できるタスクとさらに探求が必要なタスクについての問題を提起することを目的としています。

実験概要

この論文では、19のデータセットを対象に、5つのタスクにわたる総合的な評価を行いました。下表は各データセットの統計情報です。

下図には各データセットのサンプルを示しています。自然環境下で収集されたデータセット(AffectNetなど)や実験室で制御された環境下で収集されたデータセット(CASMEやCK+など)、さらに、グレースケール画像を使用するデータセット(CK+)とRGB画像を使用するデータセット(CASMEやAffectNet)など、多様なデータセットが用意されています。

また、5つのタスクについてですが、まず視覚感情分析は、画像から引き起こされる感情を識別することを目的としています。使用した4つのデータセットは、Twitter I、Twitter II、ArtPhoto、Abstractです。Twitter IとTwitter IIはソーシャルウェブサイトから収集され、Twitter IはAmazon Mechanical Turkの作業者からの生データを提供しています。ArtPhotoは写真共有サイトからの芸術写真を含み、Abstractは同業者によって評価された抽象絵画で構成されています。これらのデータセットはポジティブとネガティブの2つのクラスに再分類され、ネガティブ/ポジティブ分類タスクの結果が報告されます。

顔面感情認識では、5つのベンチマークデータセットを使用しています。CK+、FERPlus、SFEW 2.0、RAF-DB、AffectNetです。CK+とFERPlusはグレースケール画像を含み、SFEW 2.0、RAF-DB、AffectNetはRGB画像を含んでいます。具体的には、CK+は123人の被験者からの593本のビデオシーケンスを含んでおり、各シーケンスの最後の3フレームを抽出してデータセットを構築しています。

FERPlusはFER2013の拡張版で、各サンプルは10人の注釈者によって再ラベル付けされています。SFEW 2.0は映画クリップからのキーフレームを抽出し、多様な頭のポーズ、遮蔽、照明を含んでいます。RAF-DBは基本的および複合的な表情を含む何千ものサンプルを持ち、AffectNetは8つのラベルを持ち、各ラベルは500サンプルを含んでいます。 

また、微表情認識は、人間の顔の微細な変化を識別することを目的としています。評価には頂点フレームを使用し、主要な感情に集中しています。CASMEは8つのカテゴリーにわたる195サンプルを含み、4つの主要なラベル(緊張、嫌悪、抑圧、驚き)に焦点を当てています。CASME IIは26人の被験者から収集された247サンプルを含み、5つの主要なラベル(幸福、驚き、嫌悪、抑圧、その他)に焦点を当てています。SAMMは159サンプルを含み、評価は10サンプル以上のラベルに限定されています(怒り、軽蔑、幸福、驚き、その他)。

動的顔面感情認識は、より挑戦的な画像シーケンスに焦点を当てています。このタスクでは、4つのベンチマークデータセット(FERV39k、RAVDESS、eNTERFACE05、DFEW)を使用しています。最初の3つのデータセットでは、公式のトレーニング/バリデーション/テストの分割を使用し、公式のテストセットでパフォーマンスを評価します。DFEWは11,697サンプルを含む5つのフォールドを持ち、評価コストを削減するためにフォールド1(fd1)の結果のみを報告します。 

さらに、マルチモーダル感情認識は、オーディオ、ビデオ、テキストなどのさまざまなモダリティを統合して感情を識別することを目的としています。このタスクでは、3つのベンチマークデータセット(CH-SIMS、CMU-MOSI、MER-MULTI)を使用しています。CH-SIMSとCMU-MOSIは各サンプルの感情強度スコアを提供し、評価ではネガティブ/ポジティブ分類タスクに集中しています。MER-MULTIはMER2023データセットのサブセットであり、各サンプルに対して離散的および次元的なラベルを提供しています。この論文では、離散的な感情の認識パフォーマンスに焦点を当てています。

GPT-4Vのコール戦略 

この論文では、最新のGPT-4V API「gpt-4-vision-preview」の性能を評価しています。一般化感情認識タスクには画像、テキスト、ビデオ、オーディオなど多様なモダリティが含まれますが、現在のGPT-4Vバージョンには制限があり、画像とテキスト入力のみをサポートしています。ビデオデータを処理するために、ビデオをサンプルし、複数の画像に変換します。オーディオデータについては、メルスペクトログラムに変換を試みましたが、GPT-4Vはこの入力に対して適切な応答を生成できていません。そのため、この論文では画像、テキスト、ビデオに絞って評価しています。APIのリクエスト制限に対応し、セキュリティチェックによる拒否ケースを減らすために、バッチ単位の呼び出し戦略と再帰的呼び出し戦略を提案しています。

現在のGPT-4V APIには、トークン毎分(TPM)、リクエスト毎分(RPM)、リクエスト毎日(RPD)の3つのリクエスト制限があります。これにより、プロンプト設計に追加の要件が生じています。

RPMとRPDの制約に対応するために、先行研究に従い、バッチ単位の入力を採用しています。つまり、複数のサンプルをGPT-4Vに入力し、各サンプルに対して応答を生成するようリクエストします。しかし、大きなバッチサイズは、トークンの総数がTPM制限を超える結果となる場合があります。さらに、タスクの難易度が増し、誤った出力を引き起こす可能性があります。例えば、30サンプルをバッチで入力した場合、28の予測しか受け取れないことがあります。したがって、画像レベルの入力にはバッチサイズを20、ビデオレベルの入力にはバッチサイズを6に設定し、TPM、RPM、RPDの3つのAPI制限を同時に満たすように調整しています。

各タスクのプロンプトは下表の通りです。


また、評価中、GERタスクはGPT-4Vにおいてセキュリティチェックを引き起こす傾向があります。これは、視覚的感情分析や人間の感情認識のタスクに関連しています。前者のタスクには暴力的な画像が含まれ、後者のタスクでは人間のアイデンティティがセンシティブな情報と見なされます。

これらのエラーを減少させるために、プロンプトでスピーカーのアイデンティティを無視するようGPT-4Vに要求しています。しかし、それでもセキュリティエラーが発生することがあります。これらのエラーはランダムに発生します。例えば、すべての画像が人間中心であるにもかかわらず、一部はセキュリティチェックを通過し、他は失敗します。あるいは、サンプルが最初にチェックに失敗しても、再試行で通過することがあります。同じバッチに対して複数回呼び出しを行うことで、拒否ケースを減らしています。 

また、バッチ入力がセキュリティチェックに失敗する場合、これを小さな部分に分割するとチェックを通過することがあります。そのため、一貫して失敗するバッチについては、それを2つの小さなミニバッチに分割し、これらのミニバッチをGPT-4Vに入力します。この操作を、これ以上分割が不可能になるまで繰り返しています。この戦略を「再帰的呼び出し戦略」と呼んでおり、アルゴリズムは以下のようになっています。

実験結果 

まず、5つの一般化感情認識タスクにおける異なる手法の性能を報告しています。ランダム推測と多数決推測という2つのヒューリスティックベースラインを含まれています。ランダム推測では候補カテゴリーからランダムにラベルを選び、多数決推測では最も多いラベルを選んでいます。両ベースラインともに10回の実験を行い、平均結果を報告しています。

下表は視覚感情分析の結果です。GPT-4Vがほとんどのデータセットで教師ありシステムを上回ることがわかります。この優れた性能は、GPT-4Vの強力な画像内容の理解と推論能力により、画像が引き起こす感情状態を正確に推測できるためです。

下表は微表情認識の結果です。GPT-4Vはヒューリスティックベースラインよりも劣るパフォーマンスを示しました。これは、GPT-4Vが一般の人が認識できる感情向けに設計されており、専門知識を必要とするタスクには適していないことを示唆しています。


動的顔感情認識、マルチモーダル感情認識は、ビデオ内の感情を識別しますが、GPT-4Vはビデオ入力をサポートしていないため、ビデオから均等にフレームをサンプリングし、それらを順次入力しています。1ビデオにつき最大3フレームをサンプリングすることで、GPT-4Vの呼び出しコストを削減しています。下表は顔感情認識の結果です。

GPT-4Vと教師ありシステムの間には性能の差が依然として存在しますが、ヒューリスティックベースラインを大幅に上回ることは注目に値します。これらの結果は、感情認識におけるGPT-4Vの可能性を示しています。下表は動的顔感情認識の結果です。

下表では、マルチモーダル感情認識の結果です。GPT-4VがCMU-MOSIでは良好な性能を示す一方で、MER-MULTIでは比較的低い性能を示しています。この差異は、MER-MULTIでは音響情報がCMU-MOSIよりも重要であるためです。GPT-4Vが音声入力をサポートしていないため、MER-MULTIでは情報が失われ、性能が制限されます。

さらに、GPT-4Vのマルチモーダル理解能力を評価しています。すべてのタスクの中で、マルチモーダル感情認識のみがマルチモーダル情報を提供するため、このタスクで実験を行なっています。下表は、ユニモーダルおよびマルチモーダルの結果を報告します。CH-SIMSとMER-MULTIでは、マルチモーダルの結果がユニモーダルの結果を上回り、GPT-4Vのマルチモーダル統合能力を示しています。しかし、CMU-MOSIでは、ユニモーダルの結果に比べてマルチモーダルの結果がわずかに減少しています。これは、CMU-MOSIが主に感情を伝えるために語彙情報に依存しており、視覚情報の取り込みが干渉を引き起こす可能性があるためです。

まとめ

この論文では、一般化感情認識タスクにおけるGPT-4Vの総合的な評価を行っています。GPT-4Vは視覚的理解能力が非常に高く、視覚感情分析では教師ありシステムを上回る性能を示しました。しかし、専門知識が必要な微表情認識では性能が低下することがわかりました。

また、GPT-4Vの時間的モデリング能力やマルチモーダル融合能力、色空間の変化に対するロバスト性についても紹介されています。さらに、予測の一貫性とセキュリティチェックの安定性を評価し、エラー事例を視覚化することで感情理解の限界を明らかにしています。

さらに、ゼロショットのベンチマークとして機能し、感情認識やマルチモーダル大規模言語モデルに関する今後の研究に対する指針を提供しています。将来的には、より多くの感情関連タスクやデータセットを含めて評価範囲を拡大することを目指すとしており、今後の研究が期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする