GANでMinecraftの世界を生成する！

GAN（敵対的生成ネットワーク） 2021年09月27日

3つの要点
✔️ GANを用いて、Minecraftの世界を生成
✔️ GPUメモリ不足の問題を、word2vecの考え方で克服
✔️ 将来的には、自然言語からの生成も可能になるかもしれない

World-GAN: a Generative Model for Minecraft Worlds
written by Maren Awiszus, Frederik Schubert, Bodo Rosenhahn
(Submitted on 18 Jun 2021)
Comments: IEEE Conference on Games (CoG) 2021
Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Neural and Evolutionary Computing (cs.NE)

code：

本記事で使用している画像は論文中のもの、またはそれを参考に作成したものを使用しております。

研究概要

本研究では、Minecraftにおいて、一つのサンプルから機械学習によるデータ駆動型のアプローチを用いてマップ生成を行う、World-GANを提案しました。3DのGANのアーキテクチャに基づいて、与えられたサンプルから、任意のサイズのマップを作成することができるモデルになっています。GANを用いた2Dマップ生成のアプローチであるTOAD-GANをMinecraftのマップ生成に利用する場合に発生する問題である、「GPUのメモリ不足」と「各トークンの優先度を定義する必要」の二つを克服し、3Dでのマップ生成に成功しました。

提案手法

block2vec

上記の問題点を解決するために、著者らは自然言語処理のモデルである、word2vecの考え方を用いました。word2vecは、単語を入力して前後の文脈を予測するタスクを学習させたモデルの、最初の重みの行列を各単語の分散ベクトルとして考える方法です。この方法を用いれば、One hot encodingで表された自然言語が、分散ベクトルとして密な行列に情報を圧縮することができます。著者らは、このword2vecの考え方を、同じようにMinecraftのトークンに適用させ、その方法をblock2vecと命名しました。

・block2vecの学習

block2vecはword2vecとほとんど同じように学習させています。あるトークンを入力し、そのトークンの周囲にあるトークンを予測するタスクでモデルを学習させます。学習が終わったモデルの最初の重み行列を各トークンの分散ベクトルとして扱います。

・block2vecがなぜ問題を解決したか

block2vecを用いることで、各トークンを表現する方法が、One hot encodingから分散ベクトルになりました。なぜこれで問題が解決したのでしょうか。

GPU不足の解決

One hot encodingで各トークンを表現する場合、トークンの種類数分の次元を用意する必要があります。しかし、分散ベクトルはblock2vecを学習させる段階で重み行列の次元数を決めることができる（中間層のノード数を変える）ので、GPUメモリ容量に合わせて分散ベクトルの次元を調整することができます。

優先度表の定義が必要

block2vecを用いると、優先度表の定義もスキップすることができます。本論文では、ダウンサンプリングはバイリニア法を用いて行っています。

具体的には上の図のようにダウンサンプリングを行います。まず、注目領域にあるブロックを、分散表現で表します。分散表現はベクトルなので、平均化することができ、その平均化したベクトルに最も似た分散表現を持つブロックをその注目領域の代表値として扱います。

このようにダウンサンプリングを行うことによって、優先度表の定義を行うことなくダウンサンプリングを行うことができます。

World-GAN

World-GANのアーキテクチャは下の図のようになっています。

TOAD-GANとアーキテクチャはほとんど同じです。相違点は、3Dの畳み込みを行っている点と、ダウンサンプリングの方法になります。

実験

ここからは提案手法の検証結果を見ていきます。

生成例

ワールド生成を行った際の生成例をいくつか掲載します。

このように、基になるサンプルの雰囲気を保ったまま、自然な生成が行えていることが分かります。しかし、うまく生成が行えていない例もありました。

この例では村をサンプルとして生成を行っています。全体的な雰囲気としては概ね生成できていますが、建物の細かい部分はうまく生成できていないことが分かります。

TOAD-GANとの比較

TOAD-GANはもともと3Dマップ生成のモデルではありませんが、著者らがTOAD-GANの考え方をそのままに、3Dマップに拡張したモデルと、提案手法であるWorld-GANを比較します。

両者を比較すると、ほとんど同じように生成できていることが分かります。World-GANはTOAD-GAN 3Dと比較して、必要なGPUメモリが削減できている点と、優先度表の定義を必要としない点において優れているため、同じように生成できている場合、World-GANのほうが優れたモデルであると言えます。

次に、生成したマップのパターンが、基のサンプルとどの程度一致しているか、KLダイバージェンスを用いて検証します。基のサンプルと一致していればしているほど、KLダイバージェンスの値は小さくなります。

KLダイバージェンスの値が小さいほど、基のサンプルの雰囲気を表現できていると考えられます。

最後に、生成されたマップの独自性を評価します。この評価の指標として、本論文ではLevenshtein距離を用いています。この距離が大きいほど、ばらつきが大きいと考えられるため、生成されたマップの独自性が大きいと考えられます。

この結果を見ると、World-GANが最も生成されたマップの独自性が大きいと考えられます。

BERTによるトークンの分散表現

自然言語処理の中で有名なモデルに、BERTがあります。本論文で提案されたblock2vecによる分散表現と、BERTによる分散表現でマップの生成結果にどのような影響があるかを比較します。BERTは自然言語処理のモデルのため、トークンのOne hot encoding表現を入力することができません。そこで、この実験では、トークン記述（例：mossy stone bricks）を事前に訓練されたBERTモデルに入力し、最終層の出力をトークンの分散表現として使用します。

BERTによる埋め込み表現を利用して生成した例は上の図のようになります。block2vecの分散表現を使った場合と比較して、パターンが密にモデル化されていないことが分かります。これは、分散表現の次元数の高さに起因していると考えられます（著者らは768次元の分散表現を利用）。しかし、Minecraftで学習されていないのにもかかわらず、石造りの遺跡とその周りの草という一般的な構造が生成できていることが分かります。分散表現はテキストの記述のみで作成されているので、この実験はWorld-GANを自然言語に基づかせるという将来の研究の方向性を示しています。

まとめ

この論文は、Minecraftの世界を生成するGANである、World-GANを提案しました。トークンの表現方法をOne hot encodingからblock2vecを用いた分散表現に変えることで、MinecraftのようなゲームにTOAD-GANのアーキテクチャを利用できるようになりました。また、BERTを用いた埋め込み表現を利用すれば、将来的には自然言語でマップの特徴を記述し、それに従ったマップを生成できるようになるかもしれません。論文内ではここでは紹介しきれなかった他の実験が載っているので、興味があればチェックしてみてください。