ラベルセットから、確率的にシーンレイアウト生成 「Layout VAE」誕生!!

参考論文 : LayoutVAE: Stochastic Scene Layout Generation from a Label Set

与えられた画像への物体認識やラベル付け、これらは現代の画像認識技術にとっては”当たり前”とすら思える時代になってきました。

では、その”逆”はどうでしょう。すなわち、複数の”ラベル”が与えられた時、そのラベルを元から”画像”を推定することはできるでしょうか?  以下に、例を挙げて見ます。

上には、4パターンの”サーファー(人)”と”サーフボード”と”海”の画像があります。それぞれの画像におけるラベル(物体)は同じですが、配置と人数(個数)が異なっていますね。

今回紹介する「Layout VAE」は、ラベル(例えば”人”とサーフボード”)が与えられた時、その情報を元に”尤もらしい個数と配置・サイズ”を計算し、画像内に配置を行います。

この作業は、「各カテゴリごとの物体の個数の推測」と、「各物体の位置とサイズの推定」の2つの作業に分けることができます。

論文では「Layout VAE」はこれら2つの作業を”CountVAE”と”BBoxVAE”の二つのパートに分けて行なっています。