「ピザの作り方」を理解しピザの画像をレイヤーに分けて生成するpizza GANが登場

参考論文 :How to make a pizza:Learning a compositional layer-based GAN model

 

今回紹介する論文は、ピザの画像を、具や成分などいくつかのレイヤーに分けて階層的に生成するというものです。

作ったことがある方は分かると思いますが、ピザを作るプロセスは一連の順序付けられたステップで構成されています。大抵の場合、生地、ソース、そしてチーズから始めて、そして他のもっと冒険的なトッピングを加えていきます。外観は、トッピングを追加するたびに変わります。この操作は、成分間の重複関係を定義すると言えるでしょう。

 

pizza GANでは、このような、例えば入力としてペパロニピザの画像を与えられると、ピザがどんなトッピングを持っているかを予測し、各オブジェクトクラス(例:「ペパロニ」)を追加したり除去したりできる操作を行えます。

成分を除去するには、すべての成分を検出するだけでなく、その下にある成分の目に見えない部分の外観を生成することを必要とするため、その成分とのオクルージョンの関係性も学習していきます。