GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。

論文 2019年12月20日

3つの要点

✔️その１ DeepMindからAlphaZeroの進化版「MuZero」が登場
✔️その２モデルベース強化学習によりルールを与えなくてもAlphaZeroに勝利
✔️その３囲碁・チェス・将棋に加えてAtariでも同一モデルで最高性能を達成

続きを読むには

(3155文字画像6枚)

AI-SCHOLARに
登録いただく必要があります。

または

この記事に関するカテゴリー

本田志温: AI創薬を研究する学生。CV/NLP/RLなど機械学習を広く勉強しています。 Twiiter(@shion_honda)でも日々簡単な論文紹介をしているのでぜひ覗いてみてください！

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。