「なぜここまで賢くなるのか説明不可能」 ―画像生成系AI、GANを例にして

論文 2018年12月04日

今回紹介するのは、画像生成AI、GAN（敵対的生成ネットワーク）の中身を詳しく調査したという研究です。最近のGANは人でも本物の写真かどうか見間違うほどの性能を発揮しますが、GANがどのように『描いている』かを可視化した結果、簡単には説明できないような描画スキルを獲得していることがわかってきました。(※1)

論文

https://openreview.net/forum?id=Hyg_X2C5FX

(1) AIの中身

先週、日本政府がまとめた人工知能（AI）に関する原則が明らかになったと日経新聞が報じました(※2)。AIの社会浸透は急激に進んでいますが、その判断過程がブラックボックスのまま使われることを国、あるいは国際的な枠組みである程度規制するとともに、AIの中身を専門家でなくても理解しやすくするための研究開発が進められています。

今回扱うのはGANを使った画像生成AIです。以前AI-SCHOLARでもこちらの記事で画像生成についてご紹介しましたが、AIが絵を描けるというのは一見とても不思議なことです。今回はこの画像生成AIの中身、特にその『画像の描き方』について紹介していきます。

(2) 画像生成AI、GAN(敵対的生成ネットワーク）

教会の画像を生成するAIの図

（教会の画像を生成するGANの図）

少しだけ一般的なGANの仕組みを紹介します。上の画像のG(generator)の部分が画像生成AIに相当しますが、仕組み自体は簡単です。図のAIだと、8つの数字からなるz(ノイズ、潜在変数などと呼ばれます)を入力として受け取り、データを少しずつ大きくしていき、最終的に一枚の画像を出力します（例えば、8個の数字→8×8の画像→32×32の画像→512×512の画像という塩梅）。この時に生成された画像が本物らしくなるようにAIはデータを大きくしていく方法を少しずつ調整していくことで次第に綺麗な画像が生成できるようになります。このAIは、同じ入力を受け取ると全く同じ画像を出力し、少しだけ違う入力を受け取ると少しだけ違う画像が出力する、というのがポイントです。

この映像は、少しずつ入力を変えることで出力を少しずつ変えて可視化した例です。（このように少しずつ出力を変える手法をモーフィングといいます。）

またこのGANは、入力だけではなく途中のデータの一部を書き換えることでも出力画像を少しだけ変えることができます。論文ではこの性質を使って、入力や途中のデータを少し変えた時にどのように出力が変化するかを調べることで、このAIの中のどの部分が何を描くことを担当しているか、どの部分がどのように描くものの形に影響しているかなどを調べています。このようにある種AIの思考過程を妨害することで、AIの思考過程を把握することができるのです。

(3) AIの思考過程を手動で妨害する

論文では様々な実験によってGANの内部の役割が明らかにされていましたが、特に面白いと感じた次の2つの実験を紹介します。

①画像からモノを消す
②無理やり何かを描かせる

①画像からモノを消す（会議室の画像を生成するGANを例にしています）
画像からモノを消す（会議室の画像を生成するAIを例にしています）

GANの中身を調べ、予め『人』や『カーテン』を描く部分を特定しておきます。そして消したいものを描くための部分のデータを人間が適当なデータで上書きします。一番左の画像はもともとGANが生成していた画像で、その画像の生成過程を適切に妨害したのが左から2番目の画像です。うまく人を消した上で椅子や机などを描き足すことができています。右2枚の画像は同じように画像からカーテンを取り除いた例となっています。

AIの賢さが垣間見えるのはここからです。

この画像は、先程の『人』や『カーテン』を消した例と同様の手法で、『テーブル』や『椅子』を消そうとした例です。しかし見ていただくとわかるように、実際には『テーブル』は小さくなっただけ、『椅子』は減っただけで消すことには失敗しています。これは、このAIが会議室の画像を生成することを目標に作られたものであり、会議室であればテーブルや椅子は必須なので消すのは消すことはありえないと勝手に判断したかのように捉えることができます。このように、このGANはいろいろなモノを描く能力を持ちつつ、それらのモノの重要性などを暗黙のうちに理解していることがわかります。

②無理やり何かを描かせる（教会の画像を生成するGANを例にしています）

今度は逆に、画像中にモノを出現させます。この例では『ドア』に対応するデータを無理やり上書きしています。実験ではドアを出現させる場所や大きさ、材質、様式などは全く指定していないのですが、それにもかかわらずうまく元の画像にマッチするように描けていることがわかります。おそらくこの画像生成AIは、途中のデータが変わってもデータを少しずつ大きくしながら生成する過程でドアの在り方としてもっともらしいように適切に修正を加えることができていると考えられます。

他にも、「より繊細な画像が生成できるGANの方が描画に担当を設けている物体の種類が多い」などの調査結果が得られたそうです。

さて、このようにして画像生成AIの『画像の描き方』がある程度明らかにされたのですが、研究者たちにとってはここで様々な疑問が浮かびます。（専門家でなければそれらの疑問をすべて理解する必要はありませんが、これは『AIを作っている人たちがAIの中身について理解できていないことがある』という現象であり示唆的です。）例えば、「AIはどのようにしてものの重要性を記憶しているのだろうか」や「なぜドアは空や森の中には描かれずきちんと建物の1階に描けたのだろうか」などがあげられます。特にこの「ドアが適切な位置に描ける」ことの理由については論文の筆者も今後の研究課題としており、AIは実用化はできてもそのすべてを理解することは時に難しいということを物語っています。

(4) まとめ

GANの中身を調査する研究について紹介しました。GANといっても適当に画像を生成しているのではなく、必要な背景知識を暗黙のうちに正しく獲得し、また画像を生成する際には毎回複雑な思考を重ねていたのだということが研究によって明らかにされました。今回このGANが簡単にはその学習プロセスの説明ができないほど深い知識を獲得していたと紹介しましたが、画像生成系のAIに限らず他の種類のAIでも、その内部的な賢さは人間の予想を超えているという可能性が十分にありそうです。

※1 賢さの理由が説明不可能なのは現時点での話です。また、『AIが賢くなる理由がわからないこと』と、『AIの推論過程が説明できないこと』は異なります。AI（正しくはディープニューラルネットワークモデル）の推論過程は数学的にはブラックボックスではないことに注意して下さい。

※2 日経新聞「AIの判断、企業に説明責任　ルール作りへ政府7原則」

　　https://www.nikkei.com/article/DGXMZO3818677026112018MM8000/

ライター：東京大学学生