実世界の画像から想起される感情と説明文を生成するモデルが登場！

dataset 2023年01月12日

3つの要点
✔️ 実世界の画像に対して、そこから想起される感情と説明文を生成するタスクであるAEC(Affective Explanation Captioning)を提案
✔️ 6283人のアノテーターが85007枚の実世界の画像に対して感じた感情と説明文をアノテーションした大規模データセットであるAffectionを作成
✔️ チューリングテストにより、約40%の評価者がAffectionを用いて作成されたneural speakerと人間の判別がつかないという結果が得られた

Affection: Learning Affective Explanations for Real-World Visual Data
written by Panos Achlioptas, Maks Ovsjanikov, Leonidas Guibas, Sergey Tulyakov
(Submitted on 4 Oct 2022)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年、visual artから想起される感情の予測とその説明文を生成する研究に触発され、画像によって引き起こされる感情的反応を自然言語による説明文と結びつける研究が盛んになっています。

これまでも画像から感情を分類するモデルは開発されていましたが、自然言語を通して感情を学習することで結果として得られる感情分析のニュアンスはより豊かになり、人間に近い説明文の生成が可能になっています。

本稿では、こうした感情予測と説明文の生成を既存研究にあるようなvisual artに限定せず、実世界の画像に対する感情に発展させたタスク(Affective Explanation Captioning, AEC)を提案し、このタスクのための大規模データセットであるAffectionとそれを用いたneural speakerの作成を行った論文について解説します。

Affection Dataset

Affection(Affective Explanations) datasetは、公開されている既存のデータセットであるMS-COCO・Emotional-Machines・Fllickr30k Entities・Visual Genomeにある画像とQuanzengらによる既存研究で使用した画像をベースに構築されました。

具体的には5つのデータセットから選ばれた85007枚の実世界の画像に対し、様々な意見・性格・嗜好を持つ6283人のアノテーターが感じた感情をamusement・awe・contentment・excitementの4種類のポジティブな感情及びanger・disgust・fear・sadnessの4種類のネガティブな感情、またはそれ以外のsomething-elseから1つを選びました。

その結果、下のグラフに示すように全ての画像に対して71.3%のポジティブな感情と21.1%のネガティブな感情がアノテーションされました。

その後、その感情を詳細に説明する文章を追加することにより、下図のような画像と説明文のペアが収集されました。

上図は"bird(鳥)"に関連するAffectionの画像と説明文のペアですが、下段左から2段目のペアを例に挙げると、子供が鳥を追いかけて道路に出ようとしている→事故を起こす可能性がある→Fear(恐れ)といったように、画像から認識できる要素を超えた常識的な推論を含んだアノテーションが含まれているという特徴があります。

加えて下の表より、Affectionが既存データセットと比較してより語彙が豊富であり、複雑なコーパスを持っていることが分かります。

Affective Explanation Captioning

実世界の画像に対して、そこから想起される感情と説明文を生成するタスクを行うためには、以下の2つのモデルを組み合わせる必要があります。

実世界の画像とその説明文が与えられた時に、そこから想起される感情分布を予測するモデル
実世界の画像が与えられた時に、そこから想起される感情を含んだ説明文を生成するモデル

それぞれ解説していきます。

Basic Classification Tasks

本論文では既存研究に従い、入力テキストから感情を予測するモデルをC_emotion|text、入力画像から感情を予測するモデルをC_{emotion|image}と表記します。

C_emotion|text ではAffectionでアノテーションされた9つの感情クラスを予測するために、標準的なクロスエントロピー損失を用いてゼロから学習したLSTMに基づくテキスト分類器を使用しました。

C_{emotion|image}では入力画像に対する適切な感情分布を予測するために、ImageNetで事前学習したResNet-101を採用し、損失としてAffectionでアノテーションされた感情分布と予測された感情分布のKL-divergenceを用いてファインチューニングを行いました。

Neural Listeners and Speakers

本論文では生成モデルのベースとして、既存研究で広く使われているシンプルで性能が良いモデルであるSAT(Show-Attend-and-Tell)を使用しています。具体的には、各タイムステップにおいてC_{emotion|image}のResNet-101によってエンコードされる画像情報へのアテンションを学習し、現在の入力トークンとLSTMの隠れ状態を組み合わせることによって次のトークンを予測します。

これにより、下図に示すように与えられた画像に対して適切な感情予測と説明文の生成を行うことができています。

加えて特筆すべき点は、言語を通して感情を学習することで、既存の画像のみから感情を分類するモデルと比較してよりニュアンスが豊かな予測が可能となっている点です。

下図の下段左から2番目の犬の画像を例に挙げると、犬が唸りながら歯を見せている→誰かを傷つける可能性がある→Fear(恐れ)といったように、既存モデルとは違いより人間らしい予測ができていることが確認できます。

加えて、既存研究と同じくC_{emotion|image}から得られる感情分布を制御することで任意の感情を含んだ説明文の生成が可能になっています。

Emotional Turing test

本論文では、作成したneural speakerがどれだけ人間に近い文を生成できるのかを評価するためのチューリングテストを行いました。

具体的には、基本的なSATを用いたモデル(Default)、ResNet-101を用いて感情情報を加えたモデル(Emo-Grounded)、CLIPモデルを用いて最も適切な生成文をランク付けし出力するモデル(Default-Pragmatic)、Emo-GroundedとDefault-Pragmaticの両手法を用いたモデル(Emo-Grounded Pragmatic)の4つのモデルを評価しています。

テストの手順は以下の通りです。