ArtEmis: AIでアートを説明

論文 2021年03月18日

3つの要点
✔️ 絵画などのvisual artに対して感じた感情とその説明文をラベリングした大規模データセット: ArtEmisを生成
✔️ ArtEmisで学習して、画像や文からそれに対する感情を予測するモデルを作成した
✔️ さらにneural speakerを学習して、画像を比喩表現などを使って説明する文を生成することを可能にした

ArtEmis: Affective Language for Visual Art
written by Panos Achlioptas, Maks Ovsjanikov, Kilichbek Haydarov, Mohamed Elhoseiny, Leonidas Guibas
(Submitted on 19 Jan 2021)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL)

code：

はじめに

感情は最も一般的な人間の特性の一つであり、言葉によって共有されます。本論文では、特にvisual artに対する鑑賞者の感情とそれを説明する文を学習することを目指しました。visual artは、作者が鑑賞者の意識に働きかけることを目的として作られることや、抽象的な表現を含むことで複雑な説明を必要とすることから、画像に対する人間の感情の理解ができないか、という試みから用いられました。これらの学習を可能にするために、大量の画像とそれに対する感情、説明文をラベリングしたデータセットArtEmisを作成しました。そして、ArtEmisを使って画像や文から感情を予測する分類器および、感情に基づいた説明文を生成するNeural speakerを作成しました。

ArtEmis

ArtEmisの画像はpublicデータのWikiArtを用いて、各画像に対して最低5人以上に、画像に対する感情とそのように感じた理由を記述してもらいました。感情は'Amusement', 'Awe', 'Contentment', 'Excitement'の4種類のPositiveな感情と、'Anger', 'Disgust', 'Fear', 'Sadness'の4種類のNegativeな感情、そしてそれ以外の'Something Else'から選んでもらいました。下図にラベリングされたサンプルを示します。見て分かるように、説明に抽象的な表現が多く含まれています。ArtEmisは全体で439121文もの説明文からなります。

特徴　

ArtEmisの文は、COCOなど従来のデータセットに比べて、文字数が多いだけでなく単語の種類も多く、より表現豊かなデータセットとなっています。さらに、感情表現が非常に多く含まれています。下図は感情分析器のVADERを用いて分析した'具体性','主観性','感情'スコアのヒストグラムをCOCOと比較した結果です。ArtEmisの方が抽象度が高く、主観的で感情的なことが分かります。

また、ArtEmis内での感情分類の分布は下図のようになりました。全体的にNegativeよりPositiveな感情の方が多く選ばれています。しかし、興味深いことに61%もの画像はPositiveな感情とNegativeな感情が少なくとも一つずつ選ばれました。さらに、ラベル者間で意見が一致したものも多く、45.6%の画像は大多数の人が同一感情を付けました。

妥当性

ArtEmisの説明文の妥当性を評価するために、ラベリングしていない被験者に対して、ランダムな画像と説明文を提示し、この画像の説明として妥当かどうか尋ねたところ、97.5%の人が「はい」と答えました。また、複数枚の画像と説明文をランダムに並べ、正しい組み合わせをするように尋ねたところ、94.7%の画像が正しく予測されました。上記の結果から、抽象度の高い表現であるにも関わらず、非常に良く画像をラベリングできていることが分かります。

手法

感情予測器

データに対する感情予測として、文が与えられた時に感情を予測する問題と、画像が与えられた時に感情分布を予測する問題を考えました。前者は$C_{emotion|text}$と表され、cross entropyを誤差関数としてLSTMを用いたテキスト分類器の作成と、学習済みのBERTモデルをfine-tuningすることで作成しました。後者は$C_{emotion|image}$と表され、出力と実際の分布のKL divergenceを誤差関数として学習済みのResNet encoderを用いてfine-tuningして作成しました。

Neural Speaker

まず、比較のためにArtEmisを使わずにCOCOデータセットで学習した、形容詞-名詞ペアを学習するAdjective Noun PairsベースのNeural speaker(ANP)を作成しました。

Basic speaker

ArtEmisを学習するモデルには、画像encoderとattention機構を持ったLSTMを結合したShow-Attend-Tell(SAT)と、再帰構造をtransformerで置き換え、CNNで個別に計算されたbounding boxを利用するMeshed-Memory Transformer($M^2$)を用いました。さらに、学習自体は行わず、テストデータに対して最も近傍のデータをトレイニングデータから抽出して出力するNearest-Neighbor(NN)を作成しました。

Grounded speaker

さらにSATを学習する際に、感情ラベル予測への全結合層から抽出された特徴量を加えることで、任意の感情に対する文を生成することのできるモデルを作成しました。

評価手法

Neural speakerの定量的な評価として、'BLEU1-4','ROUGE-L','METEOR'の3種類のMetric手法を用いました。これらは言語的類似度を表し、値が大きいほどground truthとの一致度が高くなります。その他に、生成された文間の共通項の長さや比喩表現の割合、生成した文に対して予測した感情がどれくらいground truthに一致しているかの割合('Emo-Align')などを評価しました。さらに、機械と人間の感情の差異を見る実験として、Turing testを模倣して、生成された文が人間のものか機械のものかを人間に予測させる実験を行いました。

結果

感情予測器

Positive,Negative内の各感情は似ているものが多いため正確な分類は非常に難しく、9クラス分類のモデルは著者達人間の判断および機械学習モデルのaccuracyはどちらも60%代程度だったのに対し、Positive,Negativeの2クラス分類では90%程の精度が出ました。

Neural Speaker

各Neural Speakerの性能は下表のようになりました。'BLEU'などの言語的類似度の値は、ArtEmisの抽象度の高さにより、COCOなど従来のデータセットでの評価値より低くなっています。また、ArtEmisで学習したモデル(Basic,Grounded)とそうでないモデル(NN,ANP)では評価性能に違いが見られます。さらに、'Emo-Align'を見ると感情を指定して生成した文の方が指定しないで生成した文よりもずっと高い性能が出ています。

定性的評価として、Grounded speakerを用いてテスト画像に対して生成した文を下図に示します。指定した感情に基づいた高度な表現ができていることが分かります。

Turing test

興味深いことに、Ground speakerによって生成された文の50.3%、Basic speakerによって生成された文の40%が人間が生成したものと判断されました。

まとめ

人間の知覚や感情はAIで未発達の分野であり、これらの問題に取り組むために本論文では、visual artに対する感情とそれを説明する文をラベリングしたArtEmisを生成しました。そして、Neural speakerを構築して感情予測と説明を記述する実験を行いました。これらの結果は一部人間と機械の区別のできない文を生成することができた一方で、多様性や創造性という観点からは人間の文とはまだ程遠く、ArtEmisを契機としてさらなる人間-コンピュータ間のギャップを埋める研究が期待されています。