MuZeroの衝撃。囲碁のルールを自ら学習しAlphaZeroを凌駕。

3つの要点

✔️その1 DeepMindからAlphaZeroの進化版「MuZero」が登場
✔️その2 モデルベース強化学習によりルールを与えなくてもAlphaZeroに勝利
✔️その3 囲碁・チェス・将棋に加えてAtariでも同一モデルで最高性能を達成

モデルベース強化学習とは

「リスクを見積もりながら最適な意思決定を行う」という問題は強化学習の枠組みで盛んに研究されてきました。実際、これまでに囲碁などのボードゲームの他、ポーカーのような不完全情報ゲーム、StarCraft IIやDota 2のような極めて複雑なゲームで人間のトッププレイヤーを打ち負かす強力なAIが開発されています。しかし、これらはいずれも環境のダイナミクス、すなわちゲームのルールや完全なシミュレータが与えられることを仮定しており、ロボティクスのような実環境での問題には応用しにくいことが問題でした。

これに対して、モデルベース強化学習は環境や観測値の再構成を通して環境のダイナミクスを学習し、それに基づいて強化学習を行います。しかし、このアプローチはAtari 2600のような視覚的に複雑な環境では成功していませんでした。代わりに、このような環境ではダイナミクスを無視して方策関数価値関数を直接学ぶモデルフリーの手法(DQNなど)が主流ですが、これらは複雑な先読みが苦手で囲碁などの環境ではうまく機能していません。

   高度な先読み    複雑な環境
  モデルベース            ✓            
  モデルフリー                        ✓

本記事で紹介する「MuZero」はモデルベースのアプローチを取り、囲碁・チェス・将棋でAlphaZeroに勝ちながら、従来は苦手と言われていたAtari 2600でも最高の性能を発揮するという快挙を達成しました。モデルベースなので、ゲームのルールは与えられず自ら学習します

AlphaZeroの整理

本編に入る前に、MuZeroの前身となったAlphaZeroについて簡単に触れておきます。まず、AlphaZeroシリーズは大きく3つのバージョンがあり、次のように発展してきました。ちなみに、AlphaZeroシリーズとMuZeroは全て英・DeepMind社の研究です。

  1. AlphaGo (2015年発表): 大量の棋譜を使った教師あり学習と自己対戦による強化学習の組み合わせ。囲碁でプロ棋士に史上初勝利。
  2. AlphaGo Zero (2017年発表): 棋譜を使わずゼロから自己対戦による強化学習のみで学習。AlphaGoを圧倒。
  3. AlphaZero (2017年発表): AlphaGo Zeroに使われていたドメイン知識を取り払ってチェスと将棋でも同様の学習を可能にした。それぞれ当時最強のAIに勝利。

最新版のAlphaZeroは、19個の残差ブロックからなるCNNで、石(駒)の位置を示すテンソルから方策(次に打つ場所を表す確率)と価値(期待報酬)を予測します。このネットワークは、初期状態から自己対戦をしていって、生み出された対戦結果を元に学習されます。

AlphaZeroの強さは、次の一手と盤面の評価をCNNにより正確に行うことと、制限時間内に最良の手を見つけるための先読み手法(Monte Carlo木探索)の組み合わせによって実現されています。Monte Carlo木探索は、簡単に言うと、「勝ちにつながる見込みの高い手だけを集中的に探索する」というヒューリスティクスです。囲碁のように取りうる状態が極めて多いゲームでは全探索が事実上不可能なので、このように効率の良い探索方法が重要になります。

ルールを自ら学習する

「MuZeroがルールを自ら学習する」というのは、探索時の先読みのためのシミュレーションを内部で学んだルールによって行うということです。どのようにこれを実現するのでしょうか?

MuZeroは、過去の観測系列を記憶して1つの状態変数にまとめる表現関数h、現在の状態と次の行動から次の状態と即時報酬を予測するダイナミクス関数g、そして次の状態からその状態価値と打つ手の候補を得る予測関数fからなります。表現関数hはボードゲームのような単純な観測とAtariのような高次元の観測を統一的に扱うために必要です。すなわち、MuZeroの状態変数sは盤面そのものではなく、hによってエンコードされた変数です。ダイナミクス関数gはモデルベース強化学習のために必要です。予測関数fはAlphaZeroで実装されていたCNNと同様のものです。

3つの関数(ニューラルネット)をまとめてμ(MuZeroのMu)で表すことにします。

モデルμのパラメータθは、方策pが実際の行動方策πに、状態価値vが割引報酬和に、即時報酬rが真の報酬u(囲碁なら勝ち負け、Atariなら得点)に近くなるように学習されます。これによって、行動選択や状態価値と同時にルールを学習できます。

「ルールを使わない」と言っても、探索を終えて実際に手を進めるとき(環境が動くとき)にはルールが使われていることに注意してください(そうでないと観測も報酬も何も与えられません)。

上図はその様子をまとめたものです。図Aは、3つの関数f、g、hによって初期状態からルールを使わずに探索が行われる様子を示しています。図Bは、環境に対して実際に行動をとって真の報酬uを得る様子を示しています。図Cはリプレイバッファから取り出された状態と行動の軌跡を示しています。

実験結果

MuZeroの性能評価は囲碁・チェス・将棋の3つのボードゲームとAtariの57のゲームで行われました。囲碁・チェス・将棋ではEloレーティングでそれぞれAlphaZeroを破り、Atariではこれまで最高記録とされていたR2D2を破りました(実線が平均、破線が中央値。57ゲームのうち42で勝利)。

著者は、MuZeroがAlphaZeroに勝利できた理由を、計算を探索木にキャッシュできていることと、ルールの学習を通じて局面に関するより深い理解を獲得できていることだと推測しています。

まとめ

MuZeroは、表現関数、ダイナミクス関数、予測関数を同時に学習させることで、ルールを与えなくとも囲碁・チェス・将棋でAlphaZeroに、AtariでR2D2に勝る記録を打ち立てました。

AlphaZeroから新たに追加された表現関数は観測そのものよりも一段抽象化された表現での先読みを可能にし、ダイナミクス関数は環境がどう変化するかを考えながら行動や価値の予測を改善することを可能にしています。これらはいずれも、Atariのような複雑な環境で高度な先読みをするために不可欠な要素です。今回、Atariをある程度攻略出来たことで、ロボットアーム制御のようなより複雑な実応用へまた一歩前進したと言えるでしょう。

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model
written by Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, Timothy Lillicrap, David Silver
(Submitted on 19 Nov 2019)
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)

サイエンスライター募集中

この記事をシェアする

コメント

人工知能 Deep Learning AI image medical machine learni  @esXFdfOJxiGBFLx
2019/12/20 02:35

囲碁やチェスで勝ったモデルがそのまま!atariに勝つのは今までの常識では難しいはずだったのに https://t.co/TYT02uv1O1

kazuph@配達依存症  @kazuph
2019/12/20 02:33

まだ進化するのか…。 / “MuZeroの衝撃。囲碁のルールを自ら学習しAlphaZeroを凌駕。 | AI-SCHOLAR” https://t.co/sgfDoD8Ydp

Tomoki Morikawa/森川智貴  @xomoki
2019/12/20 02:28

まだまだアップデートされていく😵 そして手前味噌だけど、分かりやすいこの記事! いつも執筆ありがとうございます@shion_honda https://t.co/LoTnC14Von

Shion Honda  @shion_honda
2019/12/20 02:08

モデルベース強化学習を採用し、囲碁でAlphaZero超え・ AtariでR2D2超えを達成したMuZeroの解説記事を書きました。 MuZeroの衝撃。囲碁のルールを自ら学習しAlphaZeroを凌駕。|AI-SCHOLAR https://t.co/LAME2D5W4a @ai_scholar