PARA：パーソナライズされた画像の美的評価予測のための大規模データセット

dataset 2023年06月19日

3つの要点
✔️ 個人の主観的な美的評価を捉えた大規模なデータセットを構築．画像の客観的な性質だけでなく，見る側の主観的な応答も計測し，データセットに含めている点が特徴．
✔️ データセットの解析によって，美的評価は主観的な応答を強く反映したものであることが明らかになった．
✔️ データセットを利用した予測モデルの構築を通して，主観的なデータを使用することで個人の美的評価予測の性能を向上させられることが明らかになった．

Personalized Image Aesthetics Assessment with Rich Attributes
written by Yuzhe Yang, Liwu Xu, Leida Li, Nan Qie, Yaqian Li, Peng Zhang, Yandong Guo
(Submitted on 31 Mar 2022)
Comments: Accepted to CVPR2022
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

画像の美的評価は，画像や被写体の客観的な性質だけでなく，見る側の主観的な性質にも左右されるものです．これまでにも，個人の美的評価に関するデータセットはいくつか提案されてきましたが，アノテーションに限界がありました．そこで本研究では，計31220枚の画像を用いたデータセットPersonalized image aesthetics database with rich attributes (PARA)を作成しました．

得られたデータを用いて分析を行ったところ，主観的な属性データ（感情的応答などのラベル）が美的評価に反映されることが明らかになりました．また，主観的な情報を利用して個人に特化した画像の美的評価モデルを訓練し，画像の客観的属性と見る側の主観的属性の両者が，美的評価に与える影響を調査しました．

提案したデータセットはこちらにて公開されています.

導入

画像の美的評価（Image aesthetics assessment, IAA）は，写真に対する美的価値をコンピュータで評価する枠組みのことであり，汎用的な美的価値を予測する部類（Generic image aesthetics assessment, GIAA）と個人に特化した美的価値を予測する部類（Personalized image aesthetics assessment, PIAA）の二つがあります．本研究は後者を扱うものになります．

これまでに，個人の美的評価のためのデータセットとしてFLICKR-AESやAADBなどが提案されていたのですが，アノテーションの多様性が限られているという問題がありました．本研究はこの問題に対処するべく，新しいデータセットを構築しました．

貢献ポイントは以下の３点です．

・個人の主観的な美的評価に関する包括的かつ大規模なデータセットを構築．計31220枚の画像を使用し，画像の客観的な属性だけでなく，見る側の主観的な応答に関する項目（コンテンツの好み，判断の難しさetc.）も備えたデータセットになっている．

・アノテーションされたデータの解析を行い，上記の主観的な応答に関する項目が美的評価にうまく反映されていることを明らかにした

・上記の主観的な応答に関する項目のデータを使用することで，美的評価予測モデルの性能も向上することを明らかにした

データセットの作成方法

クリエイティブコモンズライセンスの画像などを収集し，画像のシーンのアノテーションを行った後，コンテンツの多様性を維持するために，28000枚の画像をサンプリングします．その後で，美的スコアの分布のバランスをとるために，既存の美的評価データセットから3000枚ほど追加します．使用した画像のシーンには，ポートレート，動物，植物，風景，建物，静物，夜景，食べ物，室内，その他の１０種類を用います．このようにして得られた画像に対して，被験者に画像の持つ様々な属性をラベルづけしてもらいます．

ラベルとしては，例えば，明るさ，色，構図，映っているもの（コンテンツ）など，画像の持つ客観的な属性に関するラベルに加えて，主観的な属性のラベルをつけてもらいます．主観的な属性のラベルは具体的には，感じた感情（amusement, excitement, contentment, awe, disgust, sadness, fear, neutralの８種類），美的評価の判断の難しさ，映っているもの（コンテンツ）に対する好み，ソーシャルメディア上で共有したいと感じたか，の４種類を使用します．

また，被験者の個人情報として，年齢，性別，学歴，性格特性，芸術や写真に対する経験などの情報も取得します．性格特性は，心理学の文脈で使われることの多いBig-Five personality traitsを使用しています．具体的には，開放性(Openness, O)，誠実性(Conscientiousness, C)，外向性(Extroversion, E)，協調性(Agreeableness, A), 神経症傾向(Neuroticism, N)の５つの指標を指しています．

これらに加えて，被験者に画像に対する美的評価スコアと画質をそれぞれ1~5の値で評価してもらいます．

データ分析

収集された計31220枚の画像に対するアノテーション結果を分析しました．

各属性の分布

調査した美的評価のための各属性の分布は大まかにみると似通っていますが，依然としてわずかな違いもあります．このことは，各属性がお互いに相関しつつも，単体として有用な情報を有していることを示しています．

美的評価スコアの分布

美的評価スコアの値の範囲ごとに，スコアの被験者間での分散を示しています．これをみると，美的評価スコアの高い部類ほど，分散が小さいことを示しており，美的評価，つまり何を美しいと思うかということに対して，個人間で共通性があることを示しています．一方で，美的評価スコアの低い部類は，分散が大きく，個人差を考慮する必要性を示しています．

美的評価スコアと各属性のピアソン相関係数

この表をみると，美的評価スコアと画質のスコアに高い相関があることがわかります．また，映っているもの（コンテンツ）に対する好み，ソーシャルメディア上で共有したいと感じたか，の二つの間にも高い相関があるようです．このことは，人は自分が好きだと感じた写真を共有したくなるということを示しています．一方で各属性同士の相関は0.5ほどであり，共通性もあれば，差異もあるということを示しています．

被験者の性格特性と各属性の美的評価スコアに対する相関

この図は，異なる性格特性の被験者ごとに，どの属性が美的評価スコアに高く相関しているかを示したものです．これをみると，神経症傾向Nの特性が強い被験者はそれ以外の被験者に比べて，大きく異なった反応を示していることがわかります．これは，Nの特性が強い人は，外界の刺激に過剰に反応し，他者と比べて感情的な反応が強い傾向があることを示しています．また，外向性Eの特性が強い被験者は，美的評価を決定する際に，映っているもの（コンテンツ）を重視する傾向があることを示していることもわかります．

感情と美的評価スコアの関係

amusement, excitement, contentment, awe, disgust, sadness, fear, neutralの８種類の感情を，ポジティブ（amusement, excitement, contentment），ニュートラル（awe, neutral），ネガティブ（disgust, sadness, fear）の３グループに分けました．すると，美的評価スコアが2.0以下の画像（黒の点線l1より左側）は，ネガティブな感情を喚起する場合が多く，美的評価スコアが4.0以上の画像（黒の点線l2より右側）は，ポジティブな感情を喚起する場合が多いことが明らかになりました．

データセットを利用した予測モデルの構築

最後に，本研究では，収集したデータセットの有用性を示すために，主観的な属性データを使用することによって，モデルの美的評価予測性能が向上するかどうかを調査しました．

モデル構築のプロセスを大まかに説明すると，はじめに，多くの人に共通する汎用的な画像の美的評価予測モデル（GIAAモデル）を訓練した後に，特定の被験者のデータを使用して個人の美的評価予測モデル（PIAAモデル）になるようにファインチューニングするという流れになっています．

実験では，提案データセットの特徴の一つである被験者の個人情報（性格特性，芸術の経験，写真の経験）を使用する場合（Conditional PIAA group）と，そうでない場合（Unconditional PIAA group）とを比較しました．

予測と正解との間のピアソン相関係数（PLCC），スピアマン相関係数（SROCC）で評価を行った結果が，次の表になります．

Conditional PIAA group，Unconditional PIAA groupそれぞれにおいて，使用したニューラルネットワーク構造の違いや条件づけに使用した被験者の個人情報の違いが縦の列，個人のデータでファインチューニングした回数（without finetuneは0回を示す）の違いが横の列に対応しています．

この結果から，個人の美的評価予測は，その個人の特定のデータを使用してファインチューニングすることで，性能が向上することがわかります．また，主観的属性の情報を利用することで性能を向上させられることもわかります．

まとめ

今回は，画像の美的評価予測という問題に対して，個人の美的評価に特化した新しいデータセットを提案した研究を紹介しました．画像の美的評価予測は，画像のレコメンデーションや写真の自動選別など，様々な応用が考えられる技術です．特に，昨今は，パーソナライズされたサービスが求められるようになってきており，今回ご紹介した研究はそのための重要なステップになるでしょう．