Never give Up! Atari完全制覇に繋がる、困難な環境でも諦めずに探索を行う強化学習!

強化学習 2020年04月10日

3つの要点

✔️ 探索(Exploration)と搾取(Exploitation)を組み合わせる強化学習
✔️ エピソード記憶に基づく内部報酬により効果的に探索を行う
✔️ 報酬が得られにくい(疎な)タスクでも高い性能を発揮する、Agent57の前身となる手法

Never Give Up: Learning Directed Exploration Strategies
written by Adrià Puigdomènech Badia, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Bilal Piot, Steven Kapturowski, Olivier Tieleman, Martín Arjovsky, Alexander Pritzel, Andew Bolt, Charles Blundell
(Submitted on 26 Sep 2019 (modified: 11 Mar 2020))
Comments: accepted by conference paper at ICLR 2020
Subjects: Machine Learning (stat.ML); Machine Learning (cs.LG)

はじめに

深層強化学習について、本サイトでは過去にR2D2やMuZeroをはじめ幾度か取り上げてきました。この領域では、チェス、将棋、囲碁といったボードゲーム、ポーカーなどの不完全情報ゲームなど、様々な領域で人間を超えるAIが新たに現れ続けています。

これら強化学習のモデルを評価する際のベンチマークとして、Atari2600と呼ばれる57種類のゲームがよく用いられます。既存の強化学習手法は、57種類のゲームのうち多数で人間の成績を超えるなど、このAtariでも高い成績を収めています。

しかし実際には、Atariの57のゲームのうち、全ての領域で人間を超えたAIは、長らく現れませんでした。

この最大の理由は、Atariに含まれている多数のゲームのうち、Montezuma’s RevengeやPitfallなどの一部のゲームがでは、複雑な行動を取らないと報酬を得ることができない(得点が増加しない)ことにあります。

例えばMontezuma’s Revengeの開始時点の画面は以下のようになっています。

この画面を人間が見れば、画面下の敵に触れると残機が減ること、画面右上・左上の壁を通過するには画面左の鍵を入手しなければならないことなどがすぐにわかるでしょう。しかし強化学習エージェントの場合、人間とは比較にならないほど莫大な試行錯誤をしなければ、そのことに気づくことはできません。

そしてこの複雑な行動のうち、強化学習エージェントが報酬を獲得できる機会はごく限られています。（例えば、鍵などのアイテムを入手した時、壁を鍵で開ける時など）。そのためAIは、人間のようにゲームのルールを予想することもできずにランダムな行動を取り続け、その中で偶然報酬を獲得できなければ、一歩も前に進むことができません。このように、報酬が得られにくい(疎な)環境は、強化学習における非常に困難な問題となっていました。

以上の理由からAIは、上記のような(AIにとって非常に困難な)一部のゲームについては、人間のようにうまく解決することはできていませんでした。

このような膠着状態のなか、つい先日、Agent57がAtariのゲーム57種類全てにおいて人間を超える成績を発揮しました。

今回紹介するNGU(Never Give Up)は、前述のように報酬が得られにくい(疎な)環境でもうまく機能することの出来る、Agent57の前身となる非常に重要な論文です。それでは見ていきましょう。

続きを読むには

(5676文字画像45枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または