PAM：パーソナライズされた画像の美的評価予測モデル

dataset 2023年09月05日

3つの要点
✔️ パーソナライズされた画像の美的評価問題に取り組んだ
✔️ 新しいデータセットを収集し，差分ベースの新しい予測モデルを構築した
✔️ 実世界応用に向けて，美的評価学習のための能動学習アルゴリズムを提案した

Personalized Image Aesthetics
written by Jian Ren, Xiaohui Shen, Zhe Lin, Radomir Mech, David J. Foran
(Submitted on 25 December 2017)
Comments: Published in 2017 IEEE International Conference on Computer Vision (ICCV)

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

導入

画像の美的評価は，画像検索や写真のランクづけ，個人のアルバムのキュレーションなど，様々な応用の可能性があります．このタスクは，画像における写真属性とセマンティクスの高度な理解を必要とする難しい問題です．最近になってディープラーニングの発展により，ようやく大きな進歩を見せてきましたが，多くは大衆の一般的な美的評価の分類を行うものに過ぎず，個人に特化した美的評価の予測を行う研究はほとんど行われていませんでした．

本論文は，この個人に特化した画像の美的評価予測問題（Personalized image aestheticsと呼ぶ）を扱うものです．

データセット

FLICKR-AES

Flickrというサイトからクリエイティブコモンズライセンスの写真を40000枚ダウンロードし，210人のアノテーターをAmazon Mechanical Turk 上で集め，各画像に対して５人分の評価が付けられるようにデータを収集しました．美的評価スコアは1から5の5段階で評価してもらいました．

こうして得られたデータセットを，訓練セットと検証セットの二つに分けました．（その際に，アノテーターが訓練セットと検証セットにまたがって含まれないようにしています．）

REAL-CUR

14人の個人のアルバム写真と各所有者自身の評価からなるデータセットも追加で収集しました．各個人に対して約200枚くらいの写真が存在しているデータセットになっています．

ユーザ個人の好みの解析

FLICKR-AESを用いて，個人のユーザの評価と様々な画像特性との相関関係を調査します．画像の美的評価に影響を与える要素として，画像のコンテンツ属性（セマンティックカテゴリ）と美的属性（対称性など）に着目します．

まず，訓練データの中から，111人のアノテーターを選び出し，彼らの好みと画像のコンテンツ属性，美的属性の関係性をSpearmanの相関係数を用いて調査します．美的評価の被験者間での平均スコアをground truthとし，それに対するoffset（residual，差分）の量を用いて，各属性との相関を計算します．

上の図が，ランダムに８人のアノテーターを抽出し，各属性と美的評価の関係性を調査したものになります．この図から，個人ごとに，好みの属性が異なることがわかります．

また，Random1, 2とある部分は，訓練セットの画像からランダムに1000枚を抽出し，それらに対するアノテーターの評価の平均値（ground truth）を使用して，仮想的に用意した２パターンのアノテーターを示しています．Random1,2の好みはそれぞれ，ground truthから標準偏差0.2，2で摂動するものとしてサンプリングされたものとして，画像の美的評価と属性の相関を計算したものになります．これらから分かることは，平均値としての美的評価では，各属性との相関はほぼ見られないのに対して，各ユーザーの内では強い相関が存在することが見て取れます．

パーソナライズされた美的評価モデルPAM

モデル構造

全体像は，以下のような構造になっています．

はじめに，ディープニューラルネットワークを用いて，ユーザ集合全体の美的評価（ground truth）を予測するモデル(Generic Aesthetics Network)を訓練します．

次に，ユーザごとの美的評価のground truthに対する差分（offset）を計算します．そして，画像入力に対して，この差分を予測するような回帰モデルを訓練することが目標です．

ここで，各ユーザごとの評価スコアのデータ数はあまり大きくなく，画像から直接回帰予測を行うことは難しいだろうと想像されます．したがって，画像入力に対して，美的属性やコンテンツ属性を予測するニューラルネットワーク（Attributes network, Contents network）を別個に訓練し，その出力を結合し，サポートベクター回帰手法を用いて，差分を予測するようにします．

能動学習アルゴリズム

また，実世界でユーザの好みを学習して，写真をキュレーションするようなアプリを作るとしたら，ユーザの好みを能動的に学習するような仕組みが効果的でしょう．そのために，能動学習という手法でユーザの好みを効果的に収集するようにします．

ユーザに評価してもらう写真の枚数を最小限に抑えるための基準として，次の二つの基準を設定します．

(1) 最小限の冗長性で，できるだけ幅広いスタイルをカバーする写真を選択する

(2) ユーザの評価とground truthの間のoffsetスコアが大きいような画像は比較的情報量が多いものだとして選択する

アルゴリズムは以下のようになっています．

あるユーザからの評価がまだアノテートされていない画像$p_i$に対して，特徴量抽出ネットワーク（Attributes network, Contents network）の出力を結合したものを$v_i$，それを用いてサポートベクター回帰によって予測された差分（offset）の値を$r_i$とします．同様に，すでにアノテートされている画像$p_j$から$v_j$，$r_j$を計算します．

その下で，上のアルゴリズムでは，基準(1)を考慮するために，$v_j$との距離の総和が最も大きい$p_i$を選択するようにします（式３）．この時，基準(2)を考慮するために，offsetの大きさで重み付けしています（式２）．

実験結果

PAMモデルの予測性能

サポートベクター回帰で画像から直接美的評価を予測する手法や，先行研究のFeature-based Matrix Factorization (FPMF)と，提案手法（PAM）の結果を比較した結果が次の表になります．個人の美的評価に合わせるために使用した訓練データの枚数が10, 100の２種類の時で，左右に分かれています．各値は，ground truthデータで訓練したモデルの予測と正解の間の相関係数0.514からどれくらい向上したかを表しています．