AIの究極系!?ニューラルネットワークを用いて"ニューラルネットワークを生成するAI

論文 2019年07月03日

論文　Agent Embeddings: A Latent Representation for Pole-Balancing Networks

これまで、画像や音声、会話などをまるで人間のように生成するニューラルネットワークが存在してきました。では、ニューラルネットワークを用いて”ニューラルネットワークを生成する”にはどうしたら良いでしょうか？

“画像や音声”と”ニューラルネットワーク”を生成する際の最も大きな違いは、その次元数(変数の量)の違いにあります。ニューラルネットは、ハイパーパラメータやバイアス、重み付けなど多様な種類の独立変数を含んでいます。

本研究では、高次元の対象、例えば「強化学習におけるニューラルネットワークのエージェント」が持つ意味を保持しつつ低次元のベクトル表現まで落とし込む”エージェントの組み込み”を本文では提案しています。

さらにこの技術を用いて、単純な強化学習のネットワークとその重み付けを複数学習させることで、”必要な情報”のみを用いて”新たなニューラルネットワークを生成する”ニューラルネットワークモデルを提案しています。

高次元から必要な意味を保持しつつ低次元ベクトルで表現する例として、「”King” – “Queen”」という言葉の持つ意味の引き算を考えてみましょう。

“King”は、男、人の上に立つもの・・・など様々な要素を含んでいますが、性別以外は”Queen”と同じ要素を持っていると認識して問題ないでしょう。そこで、性別以外の変数(次元)を削ぎ落とし、最小限の意味合いを共通点として、「”Man” – “Woman”」としてみなすことができます。人間であれば非常に大まかにこの等式の意味を掴むことはできますが、ニューラルネットワークは厳密にこの意味合いを数値的に解析し、等式を作ります。

本稿では、CartPole問題を解くための単純なネットワークをCartPoleネットワークと呼ぶことにします。

CartPole問題は、強化学習を用いて解くことができる問題の中で最もシンプルな問題のうちの一つです。

上画像はCartPoleネットワークで解く問題の図です。台車の上に垂直に棒を立てたとき、”できる限り長く”棒を立たせるためには、台車をどのように動かすべきかを学習させていきます。試行を繰り返すことにより、”棒が立っている時間”を報酬とし、台車の動きを最適化することで、棒をできる限り長く立たせます。

モデル概要

CartPoleネットワークとその重み付けを複数学習させ、”Cart-Pole-Gen”と呼ばれる小さなCartPoleネットワークを生成するためのモデルの作成を目的としています。

特定の作業を行うための学習済みニューラルネットワークを複数、学習させます。次に、それらの重み付けを保存し、モデル生成のためにインプットとして扱います。これは、潜在変数の分布からニューラルネットワークの重み空間へのマッピングを正解データとした、教師あり学習に分類されます。

上画像は、今回紹介する「CartPoleGen」のモデルとなっています。CartPoleGenは、32次元の対角ガウス潜在空間を用いた変分型オートエンコーダとして構成されます。スキップコネクションを含んでおり、かつ指数型線形ユニット(ELU : Exponetial Linear Unit)を活性化関数として用いています。変分型オートエンコーダは、潜在変数とデータを含むモデルとなっています。

実験結果

74000通りの単純なネットワークをデータセットとして用いてます。

また、それら74000通りのモデルを、”成績順”(棒を立たせられた操作数)に四分割した結果と、モデルを全て学習させた結果(Combined)が下記表になります。

それぞれ、表の左から、”学習データ(モデル)の成績”、”学習データの量”、”学習データを用いた実験における生き残り時間の平均と標準偏差”、”テストデータに対する本モデルから生成されたモデルの成績”となっています。

ここで、非常に興味深い結果として、テストデータに対して最も良い平均成績を出したのは、”良いデータのみ”を学習させたモデルではなく、74000通りの全てのモデルを学習させた結果であるという点です。さらに、テストデータにおける標準偏差(データのばらつき)も最も小さいものとなっています。

これは、やや説明が難しいですが、人間で例えて言えば、良い結果が出る勉強法だけを用いて効率よく勉強した人よりも、時間をかけて良い勉強法も悪い勉強法も試しながら勉強した人の方が、未知の試験に対して成績が良いという言説に似てると言えます。

このような結果が生まれる考察として、論文の著者は”元々の確率モデルと確率過程の影響によるもの”と”モデルの不確実性”から来るものであると考えています。そのため、改善点として必要なデータセットとなるネットワークを課題としてあげています。

おわりに

ディープニューラルネットワーク研究の究極の取り組みは、ニューラルネットワークが画像や音声・動画を作ることではなく、新たな「ニューラルネットワーク」そのものを作り出し進化させていくことだと、著者は言っています。

これまで、様々な研究でモデルやネットワークを作成するために試行錯誤が行われてきましたが、解きたい課題と付随する条件さえ指定してしまえば、あらゆる問題は全て自動的に解けてしまう時代が来るかも知れません。

ビジネスに応用するとすれば、まるでコンサルタントのように、課題に対する最適な解決案を提案してくれるモデルを作成することも期待できます。

この記事に関するカテゴリー

wevnal-ai-scholar

AIの究極系!?ニューラルネットワークを用いて"ニューラルネットワークを生成するAI

モデル概要

実験結果

おわりに

CNNのカーネルサイズは大きくするべきか？

CNNのカーネルサイズは大きくするべきか？

分子と音楽の相互変換による新しい音楽生成の可能性

分子と音楽の相互変換による新しい音楽生成の可能性

コスト指標は必ずしも適切か？

コスト指標は必ずしも適切か？

言語モデルは非言語概念空間にgroundingできるか？

言語モデルは非言語概念空間にgroundingできるか？

大規模な事前学習モデルの限界を探る！

大規模な事前学習モデルの限界を探る！

2021年公開記事のトップPV記事

2021年公開記事のトップPV記事