現実世界での安全な強化学習のために

強化学習 2020年11月25日

3つの要点
✔️ 安全性を重視した強化学習のための手法
✔️ ソース環境で事前に学習を行い、ターゲット環境での学習時に危険な行動を回避する
✔️ ターゲット環境下での危険な行動を抑制することに成功

Cautious Adaptation For Reinforcement Learning in Safety-Critical Settings
written by Jesse Zhang, Brian Cheung, Chelsea Finn, Sergey Levine, Dinesh Jayaraman
(Submitted on 15 Aug 2020)
Comments: Accepted at ICML2020
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)

はじめに

(深層)強化学習は、将棋や囲碁などのゲームを始め、様々な領域で成功を収めています。こうした強化学習は、自動運転など実世界でのタスクに対しても応用されています。

しかしながら、実世界で強化学習を行うことは、時として非常に大きなリスクを伴います。

強化学習では、エージェントと環境が相互作用しながら学習を行います。その過程で、正解となる行動・不正解となる行動を、実際に選択しながら学習を進めることとなります。それがゲームであれば、エージェントが悪手を打つことに問題は伴いません。

しかし、それが自動運転であったとしたらどうでしょうか？

言うまでもなく、実世界で自動運転システムがミスを犯すことは交通事故を意味し、人的・物的被害を招きます。このように、最悪の場合に非常に大きな損失を伴う可能性がある状況下において、強化学習を行うことは非常に困難です。こうした実世界での学習においては、危険な行動を選択せずに学習を行うようなシステムが必要となるでしょう。本記事で紹介するCautious Adaptation in RL (CARL)では、事前に危険な行動を学習し、学習時の危険な行動を防ぐことにより、この問題に対処しています。

事前知識

論文では、CARLはPETSというモデルベース強化学習手法をもとに構築されています。そのため、先にPETSの主な特徴について説明します。

確率的ダイナミクスモデル(Probabilistic dynamics model)

PETSでは、環境内で確率的ダイナミクスモデルのアンサンブルを学習します。分かりやすく言い換えれば、複数のモデルを利用して、学習環境についての情報を収集します。このときアンサンブル内のモデルは、現在の状態$s$と行動$a$から、次の状態$s'$の分布を予測できるように学習を行います。

行動選択

行動選択方式として、サンプリングベースのモデル予測制御(Model-predictive control)を行います。これは、最も高い予測報酬が得られる行動シーケンス(一連の行動)を、進化的探索により発見します。

報酬計算

この段階では、particle propagation(粒子伝搬法)と呼ばれる方法を実行します。以下に具体的な処理を示します。

初期状態を$s_0$とし、行動シーケンスを$A=[a_1,a_2,...,a_H]$とします。このとき$H$は、エピソードが終了するまでの時間(行動回数)を表します。(英語ではhorizonと表現されます。)ここで、ダイナミクスモデル$f$が与えられたとき、行動a1を実行し、次の時刻の状態$s_1$の分布を予測します。これをHステップ繰り返し行い、$A$に従って行動を選択した場合の最終的な状態$s_H$を予測します。

実際の環境内で行動を選択するのではなく、ダイナミクスモデルfを利用することで仮想的に$H$ステップの試行を行うイメージです。この処理はstate propagation(状態伝搬)と呼ばれます。これを$N$回繰り返すことにより、Hステップ後の状態$\{\hat{s}i_H\}^N_{i=1}$を予測します。このN個の予測結果はparticles(粒子)と呼ばれます。このとき、それぞれの状態$i∈[1,Ｎ]$に割り当てられた予測報酬$r_i$により、以下のように$A$の行動スコアを求めます。$$R(A) = \sum_{i}r^i/N$$これが最大となるような$A∗ = arg max_A R(A)$を選択し、この$A*$の最初の行動$a_1$を実行します。そうして得られた状態$s_1$から、改めて全体の処理を繰り返して行動を決定していきます。

続きを読むには

(6953文字画像9枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または