４種類の画像生成タスクへのチャレンジ！拡散モデルPaletteについて

Diffusion Model 2021年12月16日

3つの要点
✔️ 4つのタスクを一つのDiffusion Modelで対応
✔️ 全てのタスクにおいてPaletteがSOTAを達成
✔️ Paletteの汎化性を活かして、画像変換のマルチタスクに成功

Palette: Image-to-Image Diffusion Models
written by Chitwan Saharia, William Chan, Huiwen Chang, Chris A. Lee, Jonathan Ho, Tim Salimans, David J. Fleet, Mohammad Norouzi
(Submitted on 10 Nov 2021)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年、生成モデルが人間レベルの文章(GPT-3の真価を引き出す方法 : Promptプログラミング)、高精度な画像、または人間のようなスピーチや音楽を生成できるようになりました。その中でGANが多くのSOTAを手にして注目を浴びてきました。一方で(画像生成でBigGANに勝った？！Diffusion Modelsについて)で紹介されたように、つい最近Diffusion Model(拡散モデル)がいくつかのSOTAを達成しており、その可能性を示しています。

本記事では、Diffusion Modelがさらに四つのタスクにおいてSOTAを実現できたことを主張する論文について紹介します。

早速結果図(Figure 1.)を見てみましょう。１行目は入力画像、２行目はDiffusion Modelの出力結果、３行目は学習時に用いた参考用の画像となります。また本論文ではColorization、Inpainting、Uncropping、JPEG圧縮復元と四つのタスクを扱います。出力結果を見ると不自然な箇所がないほど完成度が高いことが分かります。

Figure 2はパノラマビューを生成した例です。これはセンターの256x256ピクセルを入力して、左右に各２倍の長さの画像を拡張し生成しました。

本論文の特徴は、異なるタスクであっても一つのDiffusion Modelで実行できることを示したことになります。つまり、生成モデルの分野における多くのタスクは実際Image-to-Imageタスクに置き換えられること、そしてDiffusion ModelがそのタスクにおいてSOTAを達成できることを示そうとする論文になります。

Palette

Conditional Diffusion Model(条件付き拡散モデル)は条件付けGAN(事前学習済みGANモデルを超解像技術へ )と同様に、高解像度な画像が生成できることが先行研究で示されています。Paletteは学習用の参考画像yで条件付けをおこなっています。

Diffusion Modelに関数詳細はAppendix Aまたは関連記事(画像生成でBigGANに勝った？！Diffusion Modelsについて)を参考にしていただきたいです。

論文では簡潔に目的関数(式1)を紹介しています。参考画像yが与えられた時に、ノイズを加えてを得ます。そしてニューラルネットワークを、入力は画像xととノイズレベルとして、ノイズを予測するように学習します。

またいくつかの先行研究ではp=1(L1ノルム)が良いことを提案していたが、p=2の方が生成するサンプルの多様性が高いことが実験で確認したため、本研究ではp=2を用います。さらにネットワークアーキテクチャは標準のU-Netをベースにいくつかの調整をおこなったものを用いています。

本実験では、Image-to-Image translation(画像間の変換タスク)において四つの定量的な評価指標を用います。生成モデルの指標で良く用いられるISとFIDに加えて、Classification Accuracy(CA)という学習済みのResNet-50を用いた際の分類精度、Inception-v1の表現空間のユークリッド距離Perceptual Distance(PD)を用います。これらに加えて人間に参照画像と生成された画像を与えた時に”どの画像がカメラから生成されたか”を答えてもらいます。その結果が間違った割合をfool rateという新たな指標で評価します。

実験

Paletteの汎化能力を４つ異なるチャレンジングなImage-to-Image変換タスクで検証しています。Colorizationは黒白な画像を最もらしい色付の画像に変換するタスクです。Inpaintingはマスクの箇所を最もリアルなコンテンツを埋めるタスクです。Uncroppingは入力画像を多方向に拡張するタスクです。JPEG decompressionはJPEG圧縮を行なった画像を復元するタスクです。タスクが違うものの、Paletteはタスクごとにハイパーパラメータをチューニングしたり、アーキテクチャを変えたり、損失関数を調整したりすることはありません。入出力が共に256x256のRBG画像です。

Colorization

先行研究では色付けのために出力はLABやYCbCr画像空間を用いるに対して、PaletteはRGB空間を用いています。従って、本研究の結果からRGBはYCbCrと同じぐらい効率的であることが言えます。

Figure 3は比較手法を含む生成した画像を載せています。本研究で用いたBaselineが先行研究と比較しても良さそうなことはわかります。結果をTable 1のように評価指標で見たときに、Paletteは参照画像に近い値を出していることが分かり、提案手法がColorizationにおいて有効であることが言えます。

Inpainting

Paletteは先行研究と同様に形状フリーなマスクを用います。またバイナリマスクの代わりに、Denoising Diffusion Modelで計算できるようにガウスノイズマスクを用います。またマスクの箇所だけを予測するようにすることで訓練速度を上げています。

Figure 4.とTable 2.に生成画像と定量的な実験結果をそれぞれ載せます。ImageNetとPlaces2データセットにおける結果はいずれPaletteの方が良いことが分かります。

Uncropping

Paletteは上下左右の任意方向または全方向に拡張することができます。いずれの場合でも50%のマスクをかけています。Inpaintingと同様にマスク領域をガウスノイズで埋めます。

先行研究との比較及び結果をFigure 5.とTable 3.に示します。ImageNetとPlaces2のいずれのデータセットにおいてPaletteはBaselineより優れています。特にFool rateが高いことがリアルな画像が生成できたことを示しています。

JPEG decompression

Paletteは先行研究と同様に多様な解像度を含んだ画像で訓練していますが、先行研究が10以上のQuality Factors (QF)を用いたが、本研究ではより難しいQF>=5にしています。

Figure 6とTable 4に生成した画像と定量結果を載せています。PaletteはRegressionよりかなり良い結果が得られました。またQFが小さいほど（タスクが難しくなるほど）PaletteとRegressionとの差が大きくなっています。

3.5 Sample Diversity

ここでは生成画像の多様性を調べます。先行研究(SR3)ではDiffusion Modelの目的関数(式1)においてL1(p=1)の方が解像度が高いことを示したが、詳細な解析が行われていません。三つのタスクにおける生成画像の多様性をSSIM指標で評価します。SSIMは大きいほど多様性が低い指標です。

Figure 8からL2の方がSSIMが低く、多様性が高いことが分かります。Figure 7.では同じ入力に対してPaletteが多様な画像が生成できることを示しています。

Multi-Task Learning

マルチタスクは多くの分野において研究されていますが、画像分野では研究がまだ少ない分野となっています。ここではPaletteを同時に複数のタスクにおいて訓練したPalette(Multi-task)とそれぞれのタスクのみで訓練したPalette(Task-specific)と比較を行います。Table 6からPalette(Multi-task)はJPEG圧縮復元タスクにおいて優れた結果を出しています。

まとめ

本論文では、Diffusion Modelが多様なImage-to-Image translationタスクにおいてGANより優れていることを示しました。4つのチャレンジングなタスクにおいてSOTAを達成し、Diffusion Modelのポテンシャルを改めて先行研究(画像生成でBigGANに勝った？！Diffusion Modelsについて)よりも多様なタスクで検証した。特にタスクに特化した情報を取り入れずにタスクを解ける特性がDiffusion Modelの汎化性に貢献しています。また初めてマルチタスクという概念をImage-to-Image transflationの分野に適応し、今後更なる研究を期待しています。