GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。
3つの要点
✔️その1 DeepMindからAlphaZeroの進化版「MuZero」が登場
✔️その2 モデルベース強化学習によりルールを与えなくてもAlphaZeroに勝利
✔️その3 囲碁・チェス・将棋に加えてAtariでも同一モデルで最高性能を達成
続きを読むには
(3155文字画像6枚) AI-SCHOLARに
登録いただく必要があります。
1分で無料で簡単登録する
または ログイン
-
- AI創薬を研究する学生。CV/NLP/RLなど機械学習を広く勉強しています。
Twiiter(@shion_honda)でも日々簡単な論文紹介をしているのでぜひ覗いてみてください!