また出た!パワーワード「〇〇 is All You Need」強化学習の最新手法、報酬機能なしでスキルを独学

今回紹介するのは強化学習の最新手法です。強化学習では、AIの行動や判断がどれだけ正しかったかを誰かが「点数」や「勝敗」などといった形で評価する必要がありますが、今回それらを使わず独学で学ぶAIが提案されました。ポイントとなる〇〇は、ずばり『多様性』です。

論文

(1) 知らないと絶対マズい「〇〇 is All You Need」の元ネタ

「〇〇 is All You Need」というフレーズをご存知でしょうか。「〇〇 is All You Need」とは直接的には「〇〇という手法を使っただけでこんなに凄いことができました。」という意味です。しかし実際には「〇〇さえ使えば既存手法を圧倒する凄い成果が出せるのに、他の研究者の皆さんはあまりセンスのないことされていませんか?」という事実上少なからず煽りを含むパワーワードで、この業界の異様な競争意識の高さのせいか、ディープラーニングを扱った論文のタイトルとしてしばしば使われています。

これの元となっている論文は、2017年6月にGoogleが出した機械翻訳の論文「Attention Is All You Need 」です。これは実際にGoogle翻訳でも使われている技術に関する論文で、当時最高精度の翻訳技術としてかなり注目されました。(現在すでにその精度を上回る手法がいくつか登場しています。)

(威厳がすごいです。論文はこちら で公開されています。)

今回はこの〇〇に「Diversity」を当てはめた、「Diversity is All You Need」という深層強化学習の分野の最先端の論文を紹介します。

(2) 通常の強化学習

「強化学習」の、ビジネスを含む様々な分野への導入の必然性は先日こちらの記事で紹介させていただいたとおりですが、昔から一般的な強化学習手法を用いて実際に学習を行う際に、いささか不自然に思われる点があしました。

それは、以下の動画がそれをよく示しているのですが、AIが何も知らない状態からいきなりタスクを遂行することを強いられ、「あなたのプレイイングはほとんど0点です」というようにはじめから無理やり評価されてしまうことです。以下の動画はAIのプレイイングが少し上達した状態からスタートしていますが、実際には学習初期の段階でかなり無惨なプレイをしています。

この基本的な「何も知らなくてもいきなりプレイさせる」というスタンスは、2015年に話題を呼んだ上の動画から、先日紹介させていただいた記事の「R2D2」という手法まで変わっていません。

そこで、いきなりタスク遂行を強制するのではなく、予め自由に動き回ってもらいゲームであれば「ゲームのルール」、ロボットであれば「物理法則」や「自分の体の仕組み」をある程度勝手に理解してから目的の学習に入る方が自然ではないのか、そのほうが実用的なのではないかという発想が、今回紹介する論文のコンセプトとなっています。ライターとしては、今回の論文のコンセプトを正しく理解することで、強化学習を実際に社会実装する際に大きくアドバンテージを取れるような予感がしています。

この記事をシェアする