また出た!パワーワード「〇〇 is All You Need」強化学習の最新手法、報酬機能なしでスキルを独学

今回紹介するのは強化学習の最新手法です。強化学習では、AIの行動や判断がどれだけ正しかったかを誰かが「点数」や「勝敗」などといった形で評価する必要がありますが、今回それらを使わず独学で学ぶAIが提案されました。ポイントとなる〇〇は、ずばり『多様性』です。

論文

目次
1.知らないと絶対マズい「〇〇 is All You Need」の元ネタ
2.通常の強化学習
3.Diversity is All You Need
4.まとめ

(1) 知らないと絶対マズい「〇〇 is All You Need」の元ネタ

「〇〇 is All You Need」というフレーズをご存知でしょうか。「〇〇 is All You Need」とは直接的には「〇〇という手法を使っただけでこんなに凄いことができました。」という意味です。しかし実際には「〇〇さえ使えば既存手法を圧倒する凄い成果が出せるのに、他の研究者の皆さんはあまりセンスのないことされていませんか?」という事実上少なからず煽りを含むパワーワードで、この業界の異様な競争意識の高さのせいか、ディープラーニングを扱った論文のタイトルとしてしばしば使われています。

これの元となっている論文は、2017年6月にGoogleが出した機械翻訳の論文「Attention Is All You Need 」です。これは実際にGoogle翻訳でも使われている技術に関する論文で、当時最高精度の翻訳技術としてかなり注目されました。(現在すでにその精度を上回る手法がいくつか登場しています。)

(威厳がすごいです。論文はこちら で公開されています。)

今回はこの〇〇に「Diversity」を当てはめた、「Diversity is All You Need」という深層強化学習の分野の最先端の論文を紹介します。

(2) 通常の強化学習

「強化学習」の、ビジネスを含む様々な分野への導入の必然性は先日こちらの記事で紹介させていただいたとおりですが、昔から一般的な強化学習手法を用いて実際に学習を行う際に、いささか不自然に思われる点があしました。

それは、以下の動画がそれをよく示しているのですが、AIが何も知らない状態からいきなりタスクを遂行することを強いられ、「あなたのプレイイングはほとんど0点です」というようにはじめから無理やり評価されてしまうことです。以下の動画はAIのプレイイングが少し上達した状態からスタートしていますが、実際には学習初期の段階でかなり無惨なプレイをしています。

この基本的な「何も知らなくてもいきなりプレイさせる」というスタンスは、2015年に話題を呼んだ上の動画から、先日紹介させていただいた記事の「R2D2」という手法まで変わっていません。

そこで、いきなりタスク遂行を強制するのではなく、予め自由に動き回ってもらいゲームであれば「ゲームのルール」、ロボットであれば「物理法則」や「自分の体の仕組み」をある程度勝手に理解してから目的の学習に入る方が自然ではないのか、そのほうが実用的なのではないかという発想が、今回紹介する論文のコンセプトとなっています。ライターとしては、今回の論文のコンセプトを正しく理解することで、強化学習を実際に社会実装する際に大きくアドバンテージを取れるような予感がしています。

(3) 最新の強化学習:Diversity is All You Need

今回扱うAIは動物や虫の形をしたものとなっています。これらは命令されたとおりに関節を動かすことはできますが、歩き方や旋回の仕方といった意味をもった動き方を全く知らない生命体を想定したもので、強化学習のような手法によって上手な動き方を獲得することを基本的な目標としています。

今回の提案手法では既存手法とは異なり、何か明確な目標(50m走りきれ、宙返りをしろ、等)を与えません。代わりに「多様なスキルを身に着ける」というとてもシンプルな目標をモチベーションにしてもらいます。そして今までの強化学習手法のように一々外部から行動を評価してあげるのではなく、「どれだけ多様なスキルを身に着けたか」を測定する方法だけを教え、あとは放置します。するとAIは言われたとおり「多様なスキルを身に着ける」ことだけを目指し、独学でスキルを開拓していきます。

より具体的には、はじめのうちはランダムな動きしかできないので、AIは「自分、あまり成長していないなぁ」とか「自分、代わり映えのない動きしかできていないなぁ」と悲観的な評価を自分自身に下しますが、その自己評価をあげるよう少しづつ工夫(パラメータの調整)を繰り返し、だんたんと「自分、代わり映えのするスキルを習得してきたぞ」と自らのスキルを実感するようになりつつ、さらに磨きをかけ続け、最終的に客観的に見ても意味のあるようなスキルを得ることができるのです。

今回の論文は、この「どれだけ多様なスキルを身に着けたかを測定する方法」を数学的に表現した点が評価されています。

この図は実際にAIが独学で習得したスキルをコマ送りで表示したもので、これらは「走る」, 「歩く」, 「ホッピング」, 「宙返り」, 「滑走する」に相当しそうです。

これらはAIにとっては名前も知らないし全く見たこともないスキルですが、人が見ても意味のあるようなスキルが習得できるというのはとても興味深いです。

このスキルを習得した状態で、新たに「50m走りきれ」, 「宙返りをしろ」, 「ゴール地点に素早く向かえ」等の明確な目標を与えると、すばやく言われたスキルを高い再現性で行えるようになったそうです。

(4) まとめ

今回、先に独学することで予め自らのスキルアップをする強化学習手法を紹介しました。強化学習、特に深層強化学習を実際に企業などで取り入れるとなると十分な効果を発揮するには大量のデータが必要となることが多いですが、この手法を用いることで必要なデータ量が減ったり、あるいはAIが独学で得たスキルを人が評価し取捨選択することで、データを全く使わずとも比較的高い性能を発揮できるAIが作れるかもしれません。

ライター:東京大学 学生


AIメディアライターを大募集中!

当メディアは、最新AI技術情報をビジネスマンにも理解できるように「AIをどこよりも分かりやすく!どこよりも身近に!」をコンセプトとした、AI論文翻訳メディアです。

AI関連技術は今、急激な勢いで進化しています。毎日、さまざまな論文が発表され、「最新の手法」が数週間で変わるぐらいその変化は激しいものです。

一方で、AIのビジネス活用の現場には、情報の非対称性が存在します。ビジネスサイドのAI技術に対する理解不足が大きいため、「AIでなんとかなるだろう」という異常な期待値の高さが生まれており、このため、AI事業を目的化してしまい真の課題解決に結びついていません。

新しい技術とそれがもたらす社会の変化を俯瞰的な視点でとらえることは、ビジネスマンのひとつの役割のはずです. しかしことAIに関して言うと、難解なイメージだけが先行してしまし、実態がつかめないと感じる方が多いのではないでしょうか?

このサイトがすこしでもその心理的な障壁を下げ、AIへの理解を深める役割を担えれば幸いです。サイトを眺めながら、この辺が研究トレンドとして熱いんだなとインスピレーションをかきたてるようなサイトになれたらいいなと思っています。

上記のようなメディアを目指して、共に走ってくれるライターを我々は募集しております。
応募対象者は、強い好奇心とAIに関する知見を世の中に広め、AIがより活用される社会を作りたいとビジョンに共感していただいた方すべて受け付けます。

AI-SCHOLARライターに採用されると3つの特典が付きます。
1. ライター同士のコミュニティを運営しており、最新の論文の動向について知ることができます。
2. AI-SCHOLARのライターにのみご紹介されるAI関連の求人案件が多数ございます。
3.講談社が運営するブルーバックスに転載される可能性があり、ライターとしての認知度が向上します。

お名前
必須
ふりがな
必須
生年月日

必須
性別 必須
電話番号 必須
出身校 必須
メールアドレス 必須
ライターとしての意気込み 任意
個人情報のお取扱いについて

ご入力いただいた個人情報は、下記の目的で利用いたします。
・お問合せやご質問に対応するため
・当社が取り扱うサービスのご案内のため

ご入力いただいた情報をシステム上で保管・管理するため、当社の選定基準を満たした事業者に委託する場合がございます。これ以外の場合において、皆様の個人情報をご本人の同意なく第三者に提供することはございません。
ご入力いただいた個人情報に関して、利用目的の通知、個人情報の開示、訂正、追加、削除、利用停止、消去、第三者提供の停止を求めることができます。これらの請求をおこないたい場合は、下記の窓口までご連絡ください。
当社に提供される個人情報の内容は、ご本人様の任意によるものです。 ただし、必要な項目をいただけない場合、適切な対応ができない場合があります。
当社のサービスは、Cookie及びこれに類する技術を利用することがあります。これらの技術は、当社による当社のサービスの利用状況等の把握に役立ち、サービス向上に資するものです。Cookieを無効化されたいユーザーは、ウェブブラウザの設定を変更することによりCookieを無効化することができます。ただし、Cookieを無効化すると、当社のサービスの一部の機能をご利用いただけなくなる場合があります。

【個人情報お問い合わせ窓口】
株式会社wevnal
担当:個人情報保護管理者 CTO 木曽隆
住所:東京都渋谷区渋谷1-11-8 渋谷パークプラザ5F
電話:03-5766-8877