また出た!AI業界流行りのパワーワード「〇〇 is All You Need」。独学するAIが登場!

今回紹介するのは強化学習の最新手法です。強化学習では、AIの行動や判断がどれだけ正しかったかを誰かが「点数」や「勝敗」などといった形で評価する必要がありますが、今回それらを使わず独学で学ぶAIが提案されました。ポイントとなる〇〇は、ずばり『多様性』です。

論文

目次
1.知らないと絶対マズい「〇〇 is All You Need」の元ネタ
2.通常の強化学習
3.Diversity is All You Need
4.まとめ

(1) 知らないと絶対マズい「〇〇 is All You Need」の元ネタ

「〇〇 is All You Need」というフレーズをご存知でしょうか。「〇〇 is All You Need」とは直接的には「〇〇という手法を使っただけでこんなに凄いことができました。」という意味です。しかし実際には「〇〇さえ使えば既存手法を圧倒する凄い成果が出せるのに、他の研究者の皆さんはあまりセンスのないことされていませんか?」という事実上少なからず煽りを含むパワーワードで、この業界の異様な競争意識の高さのせいか、ディープラーニングを扱った論文のタイトルとしてしばしば使われています。

これの元となっている論文は、2017年6月にGoogleが出した機械翻訳の論文「Attention Is All You Need 」です。これは実際にGoogle翻訳でも使われている技術に関する論文で、当時最高精度の翻訳技術としてかなり注目されました。(現在すでにその精度を上回る手法がいくつか登場しています。)

(威厳がすごいです。論文はこちら で公開されています。)

今回はこの〇〇に「Diversity」を当てはめた、「Diversity is All You Need」という深層強化学習の分野の最先端の論文を紹介します。

(2) 通常の強化学習

「強化学習」の、ビジネスを含む様々な分野への導入の必然性は先日こちらの記事で紹介させていただいたとおりですが、昔から一般的な強化学習手法を用いて実際に学習を行う際に、いささか不自然に思われる点があしました。

それは、以下の動画がそれをよく示しているのですが、AIが何も知らない状態からいきなりタスクを遂行することを強いられ、「あなたのプレイイングはほとんど0点です」というようにはじめから無理やり評価されてしまうことです。以下の動画はAIのプレイイングが少し上達した状態からスタートしていますが、実際には学習初期の段階でかなり無惨なプレイをしています。

この基本的な「何も知らなくてもいきなりプレイさせる」というスタンスは、2015年に話題を呼んだ上の動画から、先日紹介させていただいた記事の「R2D2」という手法まで変わっていません。

そこで、いきなりタスク遂行を強制するのではなく、予め自由に動き回ってもらいゲームであれば「ゲームのルール」、ロボットであれば「物理法則」や「自分の体の仕組み」をある程度勝手に理解してから目的の学習に入る方が自然ではないのか、そのほうが実用的なのではないかという発想が、今回紹介する論文のコンセプトとなっています。ライターとしては、今回の論文のコンセプトを正しく理解することで、強化学習を実際に社会実装する際に大きくアドバンテージを取れるような予感がしています。

(3) Diversity is All You Need

今回扱うAIは動物や虫の形をしたものとなっています。これらは命令されたとおりに関節を動かすことはできますが、歩き方や旋回の仕方といった意味をもった動き方を全く知らない生命体を想定したもので、強化学習のような手法によって上手な動き方を獲得することを基本的な目標としています。

今回の提案手法では既存手法とは異なり、何か明確な目標(50m走りきれ、宙返りをしろ、等)を与えません。代わりに「多様なスキルを身に着ける」というとてもシンプルな目標をモチベーションにしてもらいます。そして今までの強化学習手法のように一々外部から行動を評価してあげるのではなく、「どれだけ多様なスキルを身に着けたか」を測定する方法だけを教え、あとは放置します。するとAIは言われたとおり「多様なスキルを身に着ける」ことだけを目指し、独学でスキルを開拓していきます。

より具体的には、はじめのうちはランダムな動きしかできないので、AIは「自分、あまり成長していないなぁ」とか「自分、代わり映えのない動きしかできていないなぁ」と悲観的な評価を自分自身に下しますが、その自己評価をあげるよう少しづつ工夫(パラメータの調整)を繰り返し、だんたんと「自分、代わり映えのするスキルを習得してきたぞ」と自らのスキルを実感するようになりつつ、さらに磨きをかけ続け、最終的に客観的に見ても意味のあるようなスキルを得ることができるのです。

今回の論文は、この「どれだけ多様なスキルを身に着けたかを測定する方法」を数学的に表現した点が評価されています。

この図は実際にAIが独学で習得したスキルをコマ送りで表示したもので、これらは「走る」, 「歩く」, 「ホッピング」, 「宙返り」, 「滑走する」に相当しそうです。

これらはAIにとっては名前も知らないし全く見たこともないスキルですが、人が見ても意味のあるようなスキルが習得できるというのはとても興味深いです。

このスキルを習得した状態で、新たに「50m走りきれ」, 「宙返りをしろ」, 「ゴール地点に素早く向かえ」等の明確な目標を与えると、すばやく言われたスキルを高い再現性で行えるようになったそうです。

(4) まとめ

今回、先に独学することで予め自らのスキルアップをする強化学習手法を紹介しました。強化学習、特に深層強化学習を実際に企業などで取り入れるとなると十分な効果を発揮するには大量のデータが必要となることが多いですが、この手法を用いることで必要なデータ量が減ったり、あるいはAIが独学で得たスキルを人が評価し取捨選択することで、データを全く使わずとも比較的高い性能を発揮できるAIが作れるかもしれません。

ライター:東京大学 学生


AIメディアライターを大募集中!

ライターとして早速働きたいライター希望で、まずは相談したいライターではなく、メディアディレクターをやりたいその他