Models and Datasets for Affective Computing：感情認識のためのモデルとデータセットのサーベイ

survey 2023年10月03日

3つの要点
✔️ affective computing研究の分類
✔️ 感情認識器やデータセットの紹介
✔️ affective computing研究における未解決課題の整理

A Comprehensive Survey on Affective Computing; Challenges, Trends, Applications, and Future Directions
written by Sitara Afzal, Haseeb Ali Khan, Imran Ullah Khan, Md. Jalil Piran, Jong Weon Lee
(Submitted on 8 May 2023)
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

導入

Affective computingとは，人間の感情やセンチメント，感覚を認識する取り組みのことで，言語学，社会学，心理学，計算機科学，生理学の分野において，すでに多くの研究がなされています．

今回の論文では，affective computingの重要性，アイデア，概念，手法などに渡って，俯瞰的に紹介していきます．

Affective computingは1997にPicardによって提唱されたアイデアで，それ以降，多くの応用例が考案されてきました．多くのソーシャルメディアのプラットフォーム上では，affective computingは人々の思考の理解に有用であると考えられています．また，多くの研究者は，感情に関する計算システムは人間中心AIの発展や人間の知能の発展に重要であると考えています．

人間の感情を特定するための手法として，主に次の３つが調査されてきました．

視覚的感情認識（visual emotion recognition, VER），聴覚的感情認識（audio/speech emotion recognition, AER/SER），生体感情認識（physiological emotion recognition, PER）であり，これらは機械学習の文脈で数多くの研究がなされています．その上で，VRのようなmixed reality（XR）技術を用いることで，人々の主観的な感情体験を向上させることができると考えられており，関連した研究も複数なされています．

今回のサーベイ論文は，感情認識手法のstate-of-the-artとそれらの応用事例を広く調査したものになります．

感情認識研究の事例紹介

ここでは、機械学習、深層学習を含む、感情認識研究の各種事例を紹介していきます。

テキストベース感情認識

テキストベースの感情認識手法があり、その多くは、統計的アプローチや知識ベースのアプローチを採用しています。例えば，オンラインソーシャルメディアやeコマースシステム上でユーザが生み出した大量のテキストデータからセンチメントを分類する手法が発展してきています。

深層学習技術の登場により、テキストデータから自動で特徴量抽出を行い、end-to-endに分類器を訓練することができるようになりました。深層学習、機械学習を利用したテキストベース感情認識の研究が、次の表にまとめられています。

音声ベース感情認識

発言などのデータを認識し、感情を特定する手法も存在します。これも、機械学習、深層学習をベースにした手法が数多くを占めており，サポートベクターマシンやニューラルネットワークなどの技術が使われています。次の表が、音声ベース感情認識研究を表したものです。ニューラルネットワークの種類としては，CNNやRNNを用いる例があるようです．

視覚情報ベース感情認識

画像や動画を利用して顔の表情の画像から感情を認識する手法も存在します。こちらは、次の表にまとめられています。要素技術としては，CNNやAttention，オートエンコーダを利用していることがわかります．また，データセットの種類は豊富にあることがわかります．

データセット

ここでは、テキスト、聴覚、視覚ベース感情認識において用いられるデータセットについて紹介します。

テキストベースデータセット

様々な粒度のテキストデータが含まれており、単語から複数文、文書全体まで様々なパターンがあります。Multi-domain Sentiment データベース（MDS）はAmazonのレビューから持ってきた10万以上のフレーズを格納しており、positiveかnegativeかに分類されており、5種類のセンチメントカテゴリが付与されています。IMDBは映画に対するレビューを訓練・テスト用それぞれに25000個用意したデータセットであり、広く使われています。

聴覚情報ベースデータセット

発言・音声のデータベースとしては、意図的に発言した音声を使用している場合と、自然な発言からとられた音声を使用している場合の2種類があります。前者としては、Berlin Database of Emotional Speech（Emo-DB）などがあります。しかし、意図的な発声は自然なものよりも誇張されることが多いのが問題であり、それを解決するものとして後者のデータベースが提案されてきています。

視覚情報ベースデータセット

表情から感情認識をするためのデータセットとして、古くは研究室内で収集されたデータを用いた事例があります。例えばJAFFEでは、7種類の表情の画像データが収集されました。最近では、画像検索によって自動的に収集された35000枚ほどの顔画像を格納したデータセットFER2013などが提案されたりなど、データセットの大規模化も進んでいます。AffectNetの研究で用いられた顔画像データは100万枚以上にも及び、手作業によって8種類の感情がラベルづけされています。次の図は各種データセットの一例です．

感情認識技術の抱える課題

以前の機械学習ベースの感情認識モデルは特徴量表現をタスク固有・ドメイン固有なものとして作成している以上、ドメイン間の共有が難しいという問題点がありましたが、近年深層学習ベースの感情認識モデルが登場したことにより、それらの問題点は克服されつつあります。

CNNベースの手法は静止画像を扱う際に有効であり、RNNベースの手法は時系列データを扱う際に有効だというのが一般的な見解であり、表情画像や生理データを扱う際に有効な深層学習技術です。その他の深層学習技術として、敵対的学習やattention手法、オートエンコーダなどの手法も使用されています。これらの深層学習技術によって、多くの特徴量は自動的に学習されますが、課題として、生理的データから感情認識を行う点においては、機械学習手法と比べてそこまで大きな向上は示せていない点があります．

最後に，Affective computing研究における未解決課題が以下のようにまとめられています．