MuDERIデータセットを用いた知的障害者向け顔表情認識技術の探求

Face Recognition 2024年03月07日

3つの要点
✔️ 知的障害を持つ人々への応用の重要性と課題: 顔表情認識技術を用いて、知的障害を持つ人々の感情状態を正確に理解し、コミュニケーション能力を向上させる方法を研究。
✔️ ディープラーニングモデルの学習と分析: 知的障害を持つ人々を含む特定のデータセット（MuDERIデータセット）を使用し、知的障害を持つ人々の顔表情をどの程度正確に予測できるかを検証。
✔️ データセットとモデルの適用性に関する洞察: 一般的なFERデータセットが知的障害を持つ人々の特性を完全には捉えられないこと、知的障害の有無によってモデルが顔のどの領域を重視するかに顕著な違いがあることを示す。知的障害を持つ人々に特化したデータの不足を解決し、より正確な顔表情認識技術の開発を目指す必要があることを示唆。

Evaluating the Feasibility of Standard Facial Expression Recognition in Individuals with Moderate to Severe Intellectual Disabilities
written by F. Xavier Gaya-Morey, Silvia Ramis, Jose M. Buades-Rubio, Cristina Manresa-Yee
(Submitted on 22 Jan 2024)
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

知的障害を持つ人々の感情状態を理解することは、個人の生活の質を向上させるだけでなく、社会全体のコミュニケーションと相互理解を深める上で非常に重要です。この重要性を背景に、この論文では顔表情認識（FER）技術の潜在力を最大限に引き出し、知的障害を持つ人々のコミュニケーション能力を高める方法に焦点を当てた研究を行っています。顔表情の識別と分析において顕著な成果を上げているディープラーニングを用いて、次のような重要な疑問に答えることを目指しています。

標準的なデータセットで学習したディープラーニングモデルは、知的障害を持つ人物に対しても高い性能を発揮するのか
知的障害を持つ人物を含むデータセットで学習したモデルは、他の知的障害を持つ人物の顔表情を正確に予測できるのか
知的障害を持つ人と持たない人の間に、顔表情における差異と共通点はあるのか

これらの質問に答えるために、知的障害を持つ人物を含まないデータセットと、知的障害を持つ人物を含むMuDERIデータセットを用いて、複数のニューラルネットワークを学習、テストしています。最終的には、説明可能な人工知能（XAI）技術を用いて、各モデルが顔のどの領域を重要と判断しているかを分析・視覚化しています。

この論文は、知的障害を持つ人々に対するFER技術の適用性を深く掘り下げるものであり、この分野における革新的な貢献を目指しています。また、データセットのキュレーションからモデルの選択、データの前処理、XAI戦略の概要に至るまで、包括的な方法論を提案しています。この研究を通じて、知的障害を持つ人々の生活の質の向上に資するだけでなく、FER技術のさらなる進展に貢献することが期待されます。

提案手法

この論文で使用したデータセットは、顔表情認識（FER）において有用な7つのデータセットから成り立っています。基本となるデータセットは、FER研究における標準的なベンチマークとして広く知られている、以下の4つです。

Extended Cohn-Kanade (CK+): 123人の参加者による593の表情シーケンスを含み、7つの顔表情（怒り、軽蔑、嫌悪、恐怖、幸福、悲しみ、驚き）でラベル付けされています。
BU-4DFE: 101人の参加者からの606の表情シーケンスで、各参加者が6つの表情を含みます。
JAFFE: 10人の日本人女優による213枚の表情画像で、6つの表情を含みます。
WSEFEP: 30人の参加者からの210枚の画像で、JAFFEデータセットと同様の7つの表情カテゴリを含みます。

さらに、以下3つのデータセットが追加されています。

FEGA: 51人の参加者による複数の表情シーケンスを含み、表情、性別、年齢のマルチラベルが付与されています。
FEtest: 自然環境下で撮影された210枚の正面画像から構成されいます。
MuDERI: 知的障害を持つ12人の参加者からなるマルチモーダルデータセットで、ポジティブおよびネガティブな感情を引き出すためのオーディオビジュアル録画を含みます。

このように多様なデータセットを活用することで、基本的な表情から特殊な条件下での感情認識まで、さまざまな条件下に対応できるデータセットを構築しています。これは、FER技術の開発と評価において重要なステップを踏み出していると言えます。

また、この研究では、顔表情認識（FER）の精度を高めるために12種類のネットワークを採用しています。これらのモデルは、一般的なアーキテクチャと、FER専用に設計された独自モデルを組み合わせることで、表情認識の精度と効率を引き上げることを目指しています。使用されるモデルは以下の通りです。

一般的なアーキテクチャ
- AlexNet、VGG16、VGG19：複数の畳み込み層とプーリング層を組み合わせることで、画像から高度な特徴を抽出します。VGGモデルはそのシンプルながら均一なアーキテクチャで有名です。
- ResNet50、ResNet101V2：深いネットワーク構造でありながら、残差接続を使用して消失勾配問題に対処します。
- InceptionV3：さまざまなサイズのフィルターを同時に適用し、効率的に特徴をキャプチャします。
- Xception：深さ方向の分離可能な畳み込みを用い、計算効率を高めます。
- MobileNetV3：モバイルデバイス向けに最適化され、高い性能を低コストで提供します。
- EfficientNetV2：スケーリング戦略により、効率的な性能向上を実現します。
FER専用のアーキテクチャ
- SilNet、SongNet、WeiNet：FERに特化した設計で、比較的シンプルながら効果的な顔表情認識を実現します。

これらのモデルは、複数のデータセットで学習され、顔表情のさまざまな側面を捉えるために前処理されています。研究チームは、これら多様なアーキテクチャの性能を比較することで、顔表情認識タスクにおけるアーキテクチャの選択が結果にどのように影響するかについて調査しています。

実験

ここでは3つの実験を行っています。1つ目は、FERデータセットで学習したモデルによる性能評価です。FERタスク用に設計された拡張データセットで学習した様々なネットワークが、MuDERIデータセットの知的障害を持つ人物の顔表情を正確に分類できるかどうかを評価することが目的です。

実験結果の可視化として、FER-DB5データセットを用いた学習の結果を下図に示すようになります。この図は、異なる学習セッションの結果の分布を示すボックスプロットであり、中央値、四分位範囲、外れ値が明確に表されています。

MuDERIデータセットでは、精度が55％以下と低く、ネットワーク間で満足のいく結果が得られていません。一方で、Google FEtestでは、ほとんどのネットワークで80％以上の精度を達成しており、特にResNet50を除く全てのネットワークが良好な性能を示しています。また、MuDERIでの学習がFER-DB5と比べて精度の変動が大きいことを示しています。

2つ目は、MuDERIでの学習結果です。知的障害を持つ人物を含むデータセットで学習したモデルは、他の知的障害を持つ人物の顔表情を正確に予測できるのかを評価することが目的です。分析結果を下図に示すようになります。

ここでは次の4つのシナリオで検証しています。

ユーザーベースの分割：MuDERIの一部を分割し、一部のユーザーで訓練を行い、残りのユーザーで評価を行います。
クリップベースの分割：クリップによって分割が行われ、モデルが学習中にすべてのユーザーを「見る」ことを保証し、ユーザー固有の顔表情に完全に露出しています。
クリップベースの分割：2番目のシナリオと似ていますが、追加の制約があります。特定のクラスについて1つのクリップのみを持つユーザーからのクリップは、テストセットではなく学習セットにのみ含まれていました。これは、学習中に同じユーザーとクラスの他のクリップに遭遇した場合にのみ、ユーザーの表現を認識するモデルの能力を評価することを目的としています。
フレームベースの分割：フレームによって分割が行われ、隣接するフレームがランダムに学習テストのサブセットに分類されます。

ユーザーベースの分割が最も劣る結果を示し、クリップベースの分割が類似した精度を、フレームベースの分割が最高の精度を達成しています。ネットワークごとで見ると、学習シナリオによって異なり、EfficientNetV2は第1のシナリオで最も優れた性能を示しますが、第4のシナリオでは性能が低下します。MobileNetV3は一貫して最低の結果を示しています。

3つ目は、知的障害を持つ人と持たない人の間に、顔表情における差異と共通点はあるのかを評価することが目的です。FER-DB5とMuDERIでの学習およびテストを通じて得られたヒートマップを作成し、分析しています。ヒートマップは下図のようになります。

Sadness、Happiness、Angerのいずれも1・2列目と3列目（MuDERI）を比べると、3列目（MuDERI）に明らかな傾向の違いがあり、知的障害の有無によって、モデルが顔のどの領域を重視するかに顕著な違いがあり、障害を持つ人々に対してはより複雑で直感に反する領域が関連していることがわかります。

まとめ

この論文は、中度から重度の知的障害を持つ個人に対する顔表情認識（FER）技術の適用とその課題に焦点を当てています。具体的には、知的障害を持つ人々専用に構成されたMuDERIデータセットを含む、様々なデータセットを用いて12種類のディープラーニングモデルを学習しました。このプロセスでは、説明可能な人工知能（XAI）技術を活用して、モデルがどのように異なるユーザー群の表情を解釈するかについての調査を行なっています。

また、この研究では、一般的なFERデータセットでは知的障害を持つ人物の特性を十分に捉えることができず、このユーザーグループを直接対象とした学習が不可欠であることを示しています。知的障害の有無によって、モデルが顔のどの領域を重視するかに顕著な違いがあり、障害を持つ人々に対してはより複雑で直感に反する領域が関連していることがわかりました。

今後の研究では、知的障害を持つ人々に特化したFERデータの不足という課題に対処し、より包括的で正確な顔表情認識技術の開発を目指すことが考えられます。この分野におけるデータの充実は、ディープラーニング手法の有効性を高め、より公平でアクセスしやすい技術の実現に不可欠です。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。