絵画データセットに含まれる感情バイアスを取り除いたArtEmis v2.0が登場！

dataset 2022年10月14日

3つの要点
✔️ ArtEmisの収集過程で発生する感情バイアスによる感情やキャプションの分布の偏りを特定
✔️ これらの感情バイアスを取り除くための対照的なデータ収集手法によりArtEmis v2.0を作成
✔️ 本手法により得られた補完的なデータセットを用いることで、ArtEmisと比較してより高品質なキャプション生成が可能に

It is Okay to Not Be Okay: Overcoming Emotional Bias in Affective Image Captioning by Contrastive Data Collection
written by Youssef Mohamed, Faizan Farooq Khan, Kilichbek Haydarov, Mohamed Elhoseiny
(Submitted on 15 Apr 2022)
Comments: CVPR2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

感情は人間の精神状態や行動を決定する上で中心的な役割を担っており、アプリケーションや対話AIなどにおける社会的受容性を高めるために、こうした感情をモデリングすることが不可欠となっています。

しかし現代において、視覚・言語・感情の関係性を捉えたデータセットは非常に限られており、これらが人間の感情的な特性に対する理解が進まない原因の1つとなっています。

こうした問題を解決するための動きとして近年、visual artに対する感情的な反応と、その感情に対する言語的な説明がアノテーションされた大規模データセットとしてArtEmisが提案されました。

本稿で紹介する論文は、このArtEMisに含まれる感情バイアスを特定し、これらのバイアスを取り除くための対照的なデータ収集手法を提案したものになります。

ArtEmisに含まれる感情バイアス

社会心理学者Plousは、バイアスは人間が注意を払う事なく脳の機能を最適化するための方法であると主張しており、データセットを作成する際に人間がデータに対してラベルを付ける事になるため、収集したデータにバイアスが含まれる事は避けられません。

こうしたバイアスは軽度である場合が多いですが、特に倫理的判断や人間との相互作用に用いられるアプリケーションにおいては社会的問題に発展することもあります。

近年提案されたvisual artに対する感情をアノテーションした大規模データセットであるArtEmisに対してもこうしたバイアスは含まれており、本論文の筆者は、絵画とそれに対応する感情やキャプションの分布に偏りがあることを発見しました。

ArtEmisのキャプションは、'Amusement', 'Awe', 'Contentment', 'Excitement'の4種類のPositiveな感情と、'Anger', 'Disgust', 'Fear', 'Sadness'の4種類のNegativeな感情、そしてそれ以外の'Something Else'から構成されていますが、その比率はPositiveな感情が62%、Negativeな感情が26%というように感情の分布に大きな偏りがあり、多様性に欠けているという問題点がありました。

こうした感情の分布の偏りを改善し感情バイアスを取り除くために、本論文では対照的なデータ収集手法により補完的なデータセットを収集することを提案しました。

The constrastive data collection interface

次に、本論文で提案された対照的なデータ収集手法について解説します。

既存のArtEmisの大きな問題点は、似たスタイルの絵画に対して同じようなキャプションしか与えられていないという点です。（これはArtEmisの原論文の実験において、テストデータに対して最も近傍の絵画データを学習データから抽出するNearest-Neighbor modelの性能だけ異常に高い原因にもなっています）

そこで本論文では、こうした近傍の絵画データに対する感情バイアスを取り除き、より多様な感情のキャプションを含めたデータセットを作成するための対照的なデータセット収集手法を提案しました。

本論文のデータ収集インターフェイスを下図に示します。

初めに図(a)のようにランダムな絵画とその感情リストが与えられたとき、被験者はその下の24枚のスタイルが似ている絵画の中から、与えられた絵画に対して反対の感情を読み取れる絵画として最も適切なものを選択します。（もし適切な絵画が見つからなかった場合は、感情バイアスがかかるのを防ぐため"No Image Available"を選択します）

その後、図(b)と(c)に示すように、選択した絵画に対しての感情のアノテーションとそのように感じた理由を記述するよう求められます。

このインターフェイスにより、下図のように既存のアノテーションと反対の感情を選択する事が出来ており、似たスタイルの絵画に対して同じようなキャプションしか与えられていないというArtEmisの問題点が改善されていることが確認できます。

本論文では、ArtEmisに対して合計52933枚の感情バイアスのかかった絵画を特定し、その全てに対して少なくとも5人に対して上記インターフェイスでのアノテーションを実施し、合計260533件のインスタンスを収集しました。（そのうち、"No Image Available"は7752件）

既存のArtEmisのキャプションは、Positiveな感情が62%、Negativeな感情が26%と大きな分布の偏りがありましたが、上記インターフェイスにより収集した補完的なデータセット（以下Constrastiveデータセット）をArtEmisと組み合わせて得られた新たなデータセット（以下Combinedデータセット）は、Positiveな感情が47%、Negativeな感情が45%と非常にバランスの取れた分布になりました。

Qualitative analysis

下図はConstrastiveデータセットのサンプルであり、左側にランダムな絵画、右側にその絵画に対して反対の感情を読み取れる最も適切な絵画が、下側の既存キャプションと上側の本手法によるキャプションとともに示されています。（左右1組のペアが２セット）

図から確認できる通り、既存キャプションは単純で感情的な表現が少ない事が読み取れますが、本手法によるキャプションでは反対の感情を読み取れる絵画を選ぶという制約が課されたことで、被験者はより絵画の細部に注目し、感情的な表現を使用する傾向がみられました。

Quantitative analysis

下図は各データセットにおける感情分布であり、前述のように既存のArtEmisと本手法による補完的なデータセットを組み合わせることで非常にバランスの取れた感情分布になっていることが確認できます。

また本論文では下図のように、Combinedデータセットと既存のArtEmisに対する各感情に対する分布とsemantic space theoryに従った感情の相関を調べています。

図のCombinedデータセットとArtEmisにおける感情の相関図は、パッチの色が濃いほど異なる感情間の相関が低いことを表しており、本分析よりCombinedデータセットはArtEmisと比較して各感情間の相関が低く、それぞれの感情を明確に表現していることが確認できます。

Experiments

本論文では既存研究に基づき、以下のモデルを用いて実験を行いました。

テストデータに対して最も近傍のデータを学習データから抽出するNearest-Neighbor(NN)
LSTMとMeshed-Memory Transformersを用いたShow-Attend-Tell(SAT)
再帰構造をtransformerで置き換え、CNNで個別に計算されたbounding boxを利用するMeshed-Memory Transformer(M²)
上記のM²を修正したmodified M²
- 通常のM²はオブジェクトの特徴を画像表現として用いるが、ArtEmisの絵画の中には実際にはオブジェクトが描かれていないもの（抽象画など）があるため絵画には適さない可能性があり、modified M²は絵画をP×P個のパッチに分割することで絵画からパッチ特徴量を抽出できるように修正したモデルである（本実験ではP＝4）

これらのモデルをCombinedデータセットで学習した結果が下の表になります。

ここで注目すべきなのは、既存のArtEmisを用いた学習結果と比較して、Nearest-Neighbor(NN)の性能が最も低くなっていることであり、これはCombinedデータセットでアノテーションに対する感情バイアスが解消された事により、NNモデルがうまく機能しなくなったことを示しています。

加えてmodified M²は既存のM²をわずかに上回り、「bounding boxのみを用いて特徴量を抽出することは絵画には適さない」という筆者の仮説を裏付ける結果となりました。

また、CombinedデータセットとSATを用いて生成されたキャプションのサンプルが下図になります。（上：キャプション生成のみ　下：感情に基づくキャプション生成）