ジェスチャーから訓練データでの学習時に観測されていない感情の認識が可能に!
3つの要点
✔️ 敵対的オートエンコーダに基づいた新たなZero-Shot FrameworkであるSC-AAEを提案
✔️ 3Dモーションキャプチャされたジェスチャーの特徴ベクトルを抽出するためのアルゴリズムであるFS-GERを提案
✔️ 既存手法と比べて25〜27%の性能向上が確認された
Learning Unseen Emotions from Gestures via Semantically-Conditioned Zero-Shot Perception with Adversarial Autoencoders
written by Abhishek Banerjee, Uttaran Bhattacharya, Aniket Bera
(Submitted on 18 Sep 2020 (v1), last revised 2 Dec 2021 (this version, v2))
Comments: AAAI 2020
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
AIによる感情認識という研究分野は、ロボット工学や感情コンピューティングなどの様々なドメインに不可欠であり、これまでにも顔の表情やスピーチでのジェスチャーなどを利用して個人の感情を認識するための様々な手法が提案されてきました。
しかし、こうした機械学習ベースの感情認識アルゴリズムにおける大きな課題の1つに、感情に関する分類アルゴリズムを構築するために、膨大な量のラベル付けされたデータセットが必要であることが挙げられてきました。
こうした課題を解決するために、感情認識アルゴリズムにZero-shot Learning(ゼロショット学習)を取り入れる手法が提案され、様々なアプローチが開発されてきました。
本稿では、新たなZero-shot FrameworkであるSC-AAEを使用することで、ジェスチャーからの感情認識において既存手法を大幅に上回る性能を可能にした論文を紹介します。
SC-AAEの概要
SC-AAEのモデル概要は下図のようになっています。
本手法では、T(時間ステップ)×V(ノード)×3(位置座標)からなる一連のジェスチャーを取り込み、感情認識アルゴリズムであるFully Supervised Gesture Emotion Recognition(FS-GER)によって特徴ベクトルを生成します。
その後、敵対的オートエンコーダアーキテクチャに基づいてSeen class(訓練時に用いられる感情のクラス)とUnseen class(訓練時に用いられない感情のクラス)のマッピングを学習するという構成になっています。
Zero-Shot Learning
はじめに、本稿で何度も出てくるZero-Shot Learningについて解説します。
Zero-Shot Learningとは、機械学習における研究分野の一つであり、訓練データ中に一度も出現しなかったラベルを予測する手法になります。
例えば、犬と猫の画像を学習する際に、一般的な機械学習手法は犬と猫のラベルを活用し学習しますが、Zero-Shot Learningはラベルの代わりに、クラスで分類します。
具体的には、犬と猫のラベルを1つの数字で表すのではなく、いくつかの次元の特徴ベクトルに変換することで、意味が近い単語を特定することができ、学習中に観測されなかった馬のベクトルが猫よりも犬に近いといったように、訓練で使用されなかったデータの関連性を推論することが可能になります。
本論文では、この手法を用いることにより、ジェスチャーから観測された感情から構成されるSeen class(Relief, Shape, Pride)を学習に使用し、検証時にはジェスチャーから観測されていない感情から構成されるUnseen class(Joy, Disgust, Neutral)を検出することを目的とします。
Fully Supervised Gesture Emotion Recognition(FS-GER)
次に、本手法で特徴抽出に用いられる感情認識アルゴリズムであるFully Supervised Gesture Emotion Recognition(FS-GER)について解説します。
FS-GERの全体図は以下になります。
このネットワークの入力はT(時間ステップ)×V(ノード)×3(位置座標)のポーズ列であり、ジェスチャーはポーズの周期的なシーケンスであるため、入力されたジェスチャーに対して空間的・時間的特徴を捉えるSpatial Temporal Graph Convolutional Networks(ST-GCN)を使用しています。
その後、1×1畳み込み層を通って得られた128次元のベクトルに、前処理でジェスチャーから抽出した感情の特徴ベクトルであるAffective Featuresが加えられます。
ジェスチャーからの感情特徴は感情認識の問題に関連することが既存研究で示されており、Affective Featuresは以下の2つの特徴で構成されています。
- Posture features: 関節のペア間の距離や、関連する3つの関節が形成する角度や面積から抽出される
- Motion features: ジェスチャー時の関連する関節の加速度から構成される
その後、この特徴ベクトルはFully Connected layerとSoftmax layerに通され、感情分類のためのラベルの生成が行われます。
Language Embedding
本手法では、既存手法であるword2vecを使用して感情に関する300次元の特徴ベクトルを抽出します。
このベクトル表現を用いることで、データに含まれるすべての感情について、感情間のcloseness(=関連性)とdisparity(=不一致度)の度合いを把握することが可能になります。
本手法において、感情の集合は以下のように表現することができます。
ここで{ei}∈ℝ300は感情-単語間のword2vec表現であり、2つの特定の感情はユークリッド距離によって関連づけられます。
その後、FS-GERとLanguage Embeddingにより得られた特徴ベクトルは別々のDiscriminatorに渡され、学習に利用されます。
Performance of FS-GER
本論文ではFS-GERの性能を確かめるために、以下の条件下で感情認識に関する既存手法との比較検証を行いました。
- データの全ての身体の関節を入力条件として、ネットワークを一から学習する
- データセットには、Emotional Body Expressions Database(EBEDB)を使用する
- EBEDBは、俳優が特定のセリフをナレーションする際の自然な動きのボディジェスチャーの3Dモーションキャプチャから構成されている
- この時、データセット内の11の感情クラスから、6つのSeen classと5つのUnseen classを構成し分類を行う
各手法の分類精度は以下のようになりました。
表より、本手法は既存手法の分類精度を7〜18%上回っていることが確認されました。
Evaluation of our Zero-Shot Framework
次に、本手法のZero-Shot FrameworkであるSC-AAEを既存手法と比較した結果がこちらになります。
検証に使用された評価指標であるHarmonic Meanは、Seen classとUnseen classの分類精度の調和平均であり、この評価指標において、本アプローチであるSC-AAEが既存手法と比べて25〜27%良い数値を出していることが確認できます。
また、その他にも既存手法では以下のような問題が報告されました。
- CADA-VAE(Schonfeld et al.2019)では、感情分類に際してUnseen classの主要な特徴を作成することができない
- f-CLSWGAN(Xian et al.2018)では、GANを画像分類に条件付けしているが、モード崩壊が顕著に見られた
- アクション認識タスクのために構築されたCVAE-ZSL(Mishra et al.2018)は、感情認識のためのロバストな特徴を生成できない
SC-AAEでは上記のような問題は発生せず、既存研究との比較検証により本手法の有効性が確認されました。
まとめ
いかがだったでしょうか。今回はジェスチャーを入力とした感情認識モデルの新たなZero-shot FrameworkであるSC-AAEについて解説しました。
本手法は既存研究との比較検証においてその有効性が確認されましたが、以下のような課題も残されています。
- モデルに使用しているword2vecは一般的な言語埋め込みモデルであり、感情認識に特化したものではないため、心理的・感情的な多様性の全ての側面を捉えることができない
- より頑健な分類を実現するために、音声や眼球運動などのより多くの感情モダリティを取り入れる必要がある
こうした課題を解決し、さらなる分類精度の向上を可能にする手法は現れるのか、今後の動向に注目です。今回紹介したモデルのアーキテクチャの詳細は本論文に載っていますので、興味がある方は参照してみてください。
この記事に関するカテゴリー