ジェスチャーから訓練データでの学習時に観測されていない感情の認識が可能に！

zero shot 2022年08月23日

3つの要点
✔️ 敵対的オートエンコーダに基づいた新たなZero-Shot FrameworkであるSC-AAEを提案
✔️ 3Dモーションキャプチャされたジェスチャーの特徴ベクトルを抽出するためのアルゴリズムであるFS-GERを提案
✔️ 既存手法と比べて25〜27%の性能向上が確認された

Learning Unseen Emotions from Gestures via Semantically-Conditioned Zero-Shot Perception with Adversarial Autoencoders
written by Abhishek Banerjee, Uttaran Bhattacharya, Aniket Bera
(Submitted on 18 Sep 2020 (v1), last revised 2 Dec 2021 (this version, v2))
Comments: AAAI 2020
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

AIによる感情認識という研究分野は、ロボット工学や感情コンピューティングなどの様々なドメインに不可欠であり、これまでにも顔の表情やスピーチでのジェスチャーなどを利用して個人の感情を認識するための様々な手法が提案されてきました。

しかし、こうした機械学習ベースの感情認識アルゴリズムにおける大きな課題の1つに、感情に関する分類アルゴリズムを構築するために、膨大な量のラベル付けされたデータセットが必要であることが挙げられてきました。

こうした課題を解決するために、感情認識アルゴリズムにZero-shot Learning(ゼロショット学習)を取り入れる手法が提案され、様々なアプローチが開発されてきました。

本稿では、新たなZero-shot FrameworkであるSC-AAEを使用することで、ジェスチャーからの感情認識において既存手法を大幅に上回る性能を可能にした論文を紹介します。

SC-AAEの概要

SC-AAEのモデル概要は下図のようになっています。

本手法では、T(時間ステップ)×V(ノード)×3(位置座標)からなる一連のジェスチャーを取り込み、感情認識アルゴリズムであるFully Supervised Gesture Emotion Recognition(FS-GER)によって特徴ベクトルを生成します。

その後、敵対的オートエンコーダアーキテクチャに基づいてSeen class(訓練時に用いられる感情のクラス)とUnseen class(訓練時に用いられない感情のクラス)のマッピングを学習するという構成になっています。

Zero-Shot Learning

はじめに、本稿で何度も出てくるZero-Shot Learningについて解説します。

Zero-Shot Learningとは、機械学習における研究分野の一つであり、訓練データ中に一度も出現しなかったラベルを予測する手法になります。

例えば、犬と猫の画像を学習する際に、一般的な機械学習手法は犬と猫のラベルを活用し学習しますが、Zero-Shot Learningはラベルの代わりに、クラスで分類します。

具体的には、犬と猫のラベルを1つの数字で表すのではなく、いくつかの次元の特徴ベクトルに変換することで、意味が近い単語を特定することができ、学習中に観測されなかった馬のベクトルが猫よりも犬に近いといったように、訓練で使用されなかったデータの関連性を推論することが可能になります。

本論文では、この手法を用いることにより、ジェスチャーから観測された感情から構成されるSeen class(Relief, Shape, Pride)を学習に使用し、検証時にはジェスチャーから観測されていない感情から構成されるUnseen class(Joy, Disgust, Neutral)を検出することを目的とします。

Fully Supervised Gesture Emotion Recognition(FS-GER)

次に、本手法で特徴抽出に用いられる感情認識アルゴリズムであるFully Supervised Gesture Emotion Recognition(FS-GER)について解説します。

FS-GERの全体図は以下になります。

このネットワークの入力はT(時間ステップ)×V(ノード)×3(位置座標)のポーズ列であり、ジェスチャーはポーズの周期的なシーケンスであるため、入力されたジェスチャーに対して空間的・時間的特徴を捉えるSpatial Temporal Graph Convolutional Networks(ST-GCN)を使用しています。

その後、1×1畳み込み層を通って得られた128次元のベクトルに、前処理でジェスチャーから抽出した感情の特徴ベクトルであるAffective Featuresが加えられます。

ジェスチャーからの感情特徴は感情認識の問題に関連することが既存研究で示されており、Affective Featuresは以下の2つの特徴で構成されています。

Posture features: 関節のペア間の距離や、関連する3つの関節が形成する角度や面積から抽出される
Motion features: ジェスチャー時の関連する関節の加速度から構成される

その後、この特徴ベクトルはFully Connected layerとSoftmax layerに通され、感情分類のためのラベルの生成が行われます。

Language Embedding

本手法では、既存手法であるword2vecを使用して感情に関する300次元の特徴ベクトルを抽出します。

このベクトル表現を用いることで、データに含まれるすべての感情について、感情間のcloseness(=関連性)とdisparity(=不一致度)の度合いを把握することが可能になります。

本手法において、感情の集合は以下のように表現することができます。

ここで{e_i}∈ℝ³⁰⁰は感情-単語間のword2vec表現であり、2つの特定の感情はユークリッド距離によって関連づけられます。

その後、FS-GERとLanguage Embeddingにより得られた特徴ベクトルは別々のDiscriminatorに渡され、学習に利用されます。

Performance of FS-GER

本論文ではFS-GERの性能を確かめるために、以下の条件下で感情認識に関する既存手法との比較検証を行いました。

データの全ての身体の関節を入力条件として、ネットワークを一から学習する
データセットには、Emotional Body Expressions Database(EBEDB)を使用する
- EBEDBは、俳優が特定のセリフをナレーションする際の自然な動きのボディジェスチャーの3Dモーションキャプチャから構成されている
この時、データセット内の11の感情クラスから、6つのSeen classと5つのUnseen classを構成し分類を行う

各手法の分類精度は以下のようになりました。