抽象表現主義のアートを、進化戦略アルゴリズムで創ってみた。

Image generation 2021年10月11日

3つの要点
✔️ 進化戦略とCLIPモデルの組み合わせで、コンピュータ・アートをやってみた。
✔️ アート作成のプロセスを含み、抽象的な概念を多様かつ的確に表現できた。
✔️ 勾配ベースの手法との比較で、アートスタイルは最適化アルゴリズムに強く依存することが判明した。

Modern Evolution Strategies for Creativity: Fitting Concrete Images and Abstract Concepts
written by Yingtao Tian, David Ha
(Submitted on 18 Sep 2021)
Comments: Published on arxiv.
Subjects: Neural and Evolutionary Computing (cs.NE); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

プロジェクトページ

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

本記事では進化戦略(ES)とCILP(新年早々！AIがまたブレイクスルーが起こす可能性が出てきた)を組み合わせた手法で、コンピュータ・アートに取り組んだ論文について紹介します。

20世紀初頭、アートにおける現代革命が起きました。従来の遠近法に基づいて物体を描くことを放棄した、抽象的な視点を持つアートが急速に発展しました。中にピカソをはじめ有名な芸術家によって幾何学的なアート表現が提案されました。またモンドリアンが純粋でシンプルな形状の組み合わせによって世界を表現しようとして、その影響が後に抽象表現主義やミニマリスト・アートまで響いて、アートの世界に大きく貢献しました。

一方で、ミニマニスト・アートのアイデアがコンピュータ・アートの領域でも探索され、アルゴリズムの複雑度の考え方を用いて世界の複雑を表現しようとしました。遺伝的アルゴリズムもその一つであり、画像が反復的に進化していくので、アーティストの創造プロセスをキャプチャできることが特徴です。

この研究では進化戦略(Evolution Strategies, ES)を用いてシンプルな三角形でアート作成を試みました。2021年1月にOpenAIが発表したCLIPを活用して、人間の言語指示文に沿って多様な抽象表現主義のアート作成ができることを示しました。またコンピュータ・アートのアーティストが手軽に使えるようにソースコードを公開しています。

一例として、Figure 1.に提案手法を用いて作成した抽象主義のアートが並べました。特に4.'Walt Disney World'と6.'A picture of Tokyo'は特徴をうまく捉えられていることが分かりますね。

Modern Evolution Strategies for Creativity

提案手法(Figure 2.)の目的は、進化戦略(ES)を用いて、透明度のある三角形を配置することです。一つの三角形はの３つの頂点の座標(x1,y1,x2,y2,x3,y3)、色(r,b,g)と透明度(a)と10つパラメータで表せますので、そのパラメータ空間をESで探索した三角形を画像にレンダリングします。生成した画像がテキスト文章またはターゲット画像にどの程度フィットできるかを示すフィットスコア計算します。こうやってESアルゴリズムは数あるパラメータ候補から、フィットスコアが高くなるようにパラメータを選択していきます。またこの研究では比較的にESアルゴリズムとして、ClipUpという最適化手法を用いたPGPEを用いました。

アート作成にN個の三角形を用いた場合は10N個のパラメータがあり、個数Nはハイパーパラメータで、その他のパラメータを更新していきます。透明度(a)が0の場合は三角形がなくなるため、三角形個数の自由度をアルゴリズムに与えています。

Figure 2.に示すように、ESアルゴリズムはフィットスコアの評価と直行するので、何を基準にフィットするとするのは自由です。本研究では具体的な画像または抽象的な概念へのフィットを考えました。具体的な画像にフィットしたい場合は、生成した画像とターゲット画像のピクセル単位のL2損失をフィットスコアとすれば良いです。抽象的な概念にフィットしたい場合は、生成した画像とターゲットとする概念を潜在空間でフィットスコアを計算します。この研究ではCLIPモデルの画像EncoderとテキストEncoderをそれぞれ用いて、画像とテキストを潜在空間へ射影した後、サイン類似度をフィットスコアとしました。特に言及しておきたいのは、ESアルゴリズムはブラックボックスの最適化を行うので、レンダリングやフィットスコアの算出は微分可能である必要性がないです。

Fitting Concrete Target Image

ここでは具体的な画像にフィットした結果を見ていきます。Figure 3.は有名な「モナリザ」を50個の三角形でフィットし、1万ステップを更新したものとなります。細かいテクスチャーと背景を三角形で表現しようとした独特なスタイルなアートが得られました。右図の進化過程では、図形の形状や色を細かく調整する様子も見られます。

三角形の個数とパラメータ

提案手法で用いたPGPEアルゴリズムが効率的で、三角形の個数に線形比例してパラメータが増えます。またどんなターゲット画像にもフィットすることができたことがFigure 4.から分かります。

ESアルゴリズムのチョイス

この研究では、我々のClipUpと用いたPGPEを伝統な進化アルゴリズムと比較しました。Figure 5.から同じイテレーションとパラメータ数の場合、提案手法の方が良いことがわかります。定量的な評価においてはベースラインをさらに56倍のイテレーションを回しても提案手法を越えることがないことがわかります。

勾配ベースの最適化手法との比較

ESベースの提案手法が、勾配ベースのnvdiffrast手法と比較してみました。Figure 6.のように提案手法と勾配ベースは同等程度の画像が生成できるが、わずかに提案手法の方がフィットスコアが高いです。異なるスタイルなアートが得られたことが興味深いです。提案手法は背景を大きな三角形で表現し、細部には小さい三角形を配置しているに対して、勾配ベースの手法はターゲットにみられないテクスチャーを導入する傾向があります。これは、提案手法が三角形の配置に、勾配ベースの手法は透明色の合成にフォーカスしていることが原因と考えられます。

Fitting Abstract Concept with CLIP

次に言語で表現された抽象的な概念にフィットした結果を見ていきます。どのようなものを描くかはかなり自由なために、前節で紹介した具体的な画像をフィットするより遥かに難しいかつ興味深い問題です。

抽象的な概念にフィットするには2000ステップで収束し、結果の例をFigure 7に示します。一つの単語やフレーズだけでなく、より長い文章まで扱えることができました。特に人間が解釈できるクリエイティブなアートコンセプトが得られました。最初の三つは人間とディズニーランドの城、最後はシリコンバレーにあるGoogleの本部の特徴を捉えるように、進化過程で細かく調整しました。特にGoogleの本社は複合的な特徴をちゃんと捉えており、気になった方は『Google シリコンバレー』をググって、比べてみてください。

三角形の個数とパラメータ

Figure 8.は三角形の個数を変えながらフィットした結果であり、抽象的で評価が難しいのですが、いずれもフィットできたように見えます。三角形の個数はアート制作に使える予算と考えた際に、特徴を表現するのに用いるべき予算のバランスを取っていることが分かります。ただし中にも'A picture of Tokyo'を200三角形でフィットさせた結果がうまく行ってないことがわかります。三角形を過度に用いると難しくなるため、今後の研究課題となります。

複数回の実行

抽象的な概念にフィットするには、大きな自由度があります。よって異なる初期化や最適化する際のノイズによって異なるアートが生成される可能性があります。Figure 9.はそれぞれ50個の三角形で2000ステップで4回の実験で得られたものになります。人間が解釈可能な範囲内で異なる結果が得られたので、コンピュータによる芸術制作支援に求められる性質を持っていると著者たいが主張しています。

勾配ベースの最適化手法との比較

最後に勾配ベースの手法との比較を行いました。CLIPを用いたアート制作はClipdrawやStyleGANをはじめ、既に多くの良い研究が行われました。しかし、レンダラーとCLIPの勾配ダイナミックスが大きく異なるため、最適化することが簡単ではありません。研究によって原稿を用意する必要がありました。この研究では前節と同様に微分可能なレンダラーを用いて、Figure 2.のようにLossをパラメータの選択まで逆伝搬することができるnvdiffrastと比較します。

いずれの手法もコンセプトにフィットすることができています(Figure 10.)。ESを用いた提案手法は形状やオブジェクトの境界をより明確に表現しています。興味深いことに、提案手法はより抽象表現主義に近いアートスタイルを表現しています。ポスト印象主義と印象主義の違いのように、提案手法は勾配ベースの手法との違いは、より大胆な色と形状を用いています。このような結果は最適化アルゴリズムに強く依存しているため、アルゴリズムの選択がアートスタイルに繋がると著者たちが主張します。

まとめ

いかがでしょうか？コンピュータ・アートのアルゴリズムとしてESとCLIPを組み合わせた手法で生成したミニマリズムのアートを紹介しました。実験では、人間の言語や画像の解釈をターゲットとして、幾何学的抽象表現を生成できることを検証しました。アーティストがアルゴリズムの組み合わせによって独特なアート作成ができることを主張し、その支援となるように使いやすいソースコードを公開されているため、試してみるのがおすすめです。最後に本記事を通じてアートを含め多様な領域において、AIの可能性がまだまだ残っていることを皆さんと共有できれば幸いです。