Jump-Start RL: 事前学習した方策によって「ガイド」を行うことで探索を効率化！

Offline Pre-Training and Online Finetuning 2023年10月05日

3つの要点
✔️ 事前学習された方策を用いて探索を効率化する枠組みJump-Start RLを提案
✔️ 理論解析によって事前学習された方策の性能への依存関係を解析
✔️ 実験によって既存手法を上回る結果を確認

Jump-Start Reinforcement Learning
writtenby Ikechukwu Uchendu,Ted Xiao,Yao Lu,Banghua Zhu,Mengyuan Yan,Joséphine Simon,Matthew Bennice,Chuyuan Fu,Cong Ma,Jiantao Jiao,Sergey Levine,Karol Hausman
(Submitted on 5 Apr 2022 (v1), last revised 7 Jul 2023 (this version, v2))
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの, 紹介スライドのもの, またはそれを参考に作成したものを使用しております.

背景

強化学習(Reinforcement Learning: RL)は環境との相互作用を通して試行錯誤を繰り返しながら最適な行動方策を学習する枠組みです. しかしながら, 最適な方策を一から学習するためには, 多くの相互作用のサンプルが必要であることが知られています. この傾向は状態空間や行動空間の大きい, 大規模な探索を必要とする問題で顕著です. こうした問題に対処するために, 事前学習した方策や価値関数を用いて学習効率を高める手法が注目を集めています. 「ある程度性能の良い方策や価値関数」を初期値として用いて, 学習に必要な相互作用の回数を減らそうというわけです.

既存研究と課題

模倣学習+RL

与えられた環境との相互作用のデータ$D=\{s_i, a_i, r_i, s'_i\}_{i=1}^n$から模倣学習を行い方策 $\pi$ を学習し, 学習した方策 $\pi$ を初期方策とし強化学習を行う方法です. 価値ベースの強化学習手法を用いるためには, 方策だけでなく学習した方策の価値関数が初期値として必要であり, 事前に学習した方策 $\pi$ だけでなく, 学習に用いたデータ $D$ をリプレイバッファに含めることで対応する手法などが開発されています.

オフライン強化学習+RL

価値ベースの強化学習手法との接続を改善するために, オフラインデータ $D$ から方策だけでなく価値関数の推定も行うオフライン強化学習で事前学習を行う手法も提案されています.

まとめると, 既存手法では, 価値ベースの強化学習手法をファインチューニングに用いる際, オフラインデータを用いる必要があったり, 価値関数を学習するオフライン強化学習を事前学習時に用いる必要があることがわかりました. 本研究では, これらとは異なるアプローチをとることで, 強化学習を効率化する柔軟な枠組みを開発しています. 本研究のコンセプトを端的に説明すると, 「与えられた方策に途中までガイドしてもらうことで, 探索を効率化する」です. ゲームの途中まで達人にプレイしてもらって, 途中からやり始めるというサイクルを繰り返すことで, ある程度価値の高い状態の近傍のみを探索することができるので探索が効率化されるというイメージです. 事前に学習した方策は, 環境で実行可能であれば良いので, ニューラルネットワークのようにパラメトライズされている必要もありません. また, 当然その後に用いる強化学習手法は任意で, 既存手法のように価値ベースの手法を用いるために特別な工夫をする必要がありません.

方策のみを必要とし, その方策の形式を問わない点.
後続の強化学習手法が任意である点.

で, 既存手法に比べて柔軟性があると言えます.

手法

ponti-diagram — 図1. JSRLの概念図. ガイド方策によってある程度良い状態まで「連れて行って」もらい, 効率的な探索を行う. ガイド方策を用いる長さを調整することでカリキュラムを生成して, 徐々に探索方策が担当するホライゾンを長くしていく.

二種の方策を用いた効率的な強化学習

本研究の基本的な考え方は, 「与えられた方策に途中までガイドしてもらうことで, 探索を効率化する.」でした. 以下この考えを詳しく説明します.

固定されたガイド方策, $\pi^g(a|s)$ と, 強化学習アルゴリズムを用いて最適化を行う探索方策 $\pi^e(a|s)$の二種類の方策を考えます. 本手法の中核的なアイデアは、複雑なタスクの学習プロセスを効率化するために、$\pi^g$ と $\pi^e$ を順次使用することです. 訓練の初期段階では、$\pi^g$ は未訓練の $\pi^e$ よりもはるかに優れているため、$\pi^g$ を使用してデータを収集したいと考えます. 最初に、$\pi^g$ はエージェントを「良い」状態に導き、その後、$\pi^e$ がそれらの状態から探索するというわけです[図1]. しかし、$\pi^g$ によって収集されるデータの分布は、$\pi^e$によるものと異なるため, 学習時に分布シフトが発生します. この問題に対処するために、彼らはデータ収集を $\pi^g$ から $\pi^e$ に段階的に移行させるカリキュラムベースのアプローチを提案しています. $\pi^e$ が徐々に向上するにつれて, ガイドする長さを変えて, 分布シフトを解消してゆきます. カリキュラムの生成方法として彼らは, ガイド方策がデータを収集するホライゾンを徐々に短くする方法と, ランダムに決定する方法の二つを提案し, 実験で比較しています.

アルゴリズム

以上で説明した流れを具体化したアルゴリズムJump-Start RL(JSRL)について説明します. 全体のホライゾンを $H$ とします. 最初に, ガイド方策と探索方策の切り替えのタイミングの系列(カリキュラム), $H_1, \dots, H_n$を生成します. 各イテレーション $i$ で, $h=H_i$とします. 最初の$h$ステップはガイド方策を実行し, 残りの$H-h$ステップを$\pi^e$で消化します. この二つを合わせた方策を $\pi$で表記します. $\pi_{1:h}=\pi^g_{1:h}$, $\pi_{h+1:H} = \pi^e_{h+1:H}$です. 上の手続きで集めたデータを用いて, $\pi^e$及び$\pi$を, なんらかの方策更新アルゴリズム $\mathrm{TRAINPOLICY}$ を用いて更新します. その後, 通常の方策評価アルゴリズム $\mathrm{EVALUATEPOLITHY}$ によって, 更新された $\pi$ を評価して, 評価が閾値を越えれば学習を終了させます.

理論解析

まず, なんの仮定もなければ, 楽観的探索を行わない, $\epsilon$-greedyのような探索アルゴリズムは指定のsub-optimality gapを達成するのにホライゾン$H$に対して指数オーダーのサンプル数を必要とするMDPが構成できるということを述べています. ここで, sub-optimality gapは, アルゴリズムが出力する方策 $\pi$ と, 最適方策 $\pi^*$ の価値関数差の初期分布による期待値 $\mathbb{E}_{s_0\sim \rho}[V^{\pi^*}(s_0) - V^\pi(s_0)]$ です. つまり, $\epsilon-greedy$のような単純な探索アルゴリズムでは, 最悪指数オーダーのサンプルがないと最適方策に近いを見つけられないということです. こちらは, よく知られた結果で, 論文でも既存研究の定理をTheorem4.1として引用しています. 証明などが知りたい方はそちらを参照ください.

そして次に, ガイド方策が最適方策と十分近ければ, JSRLを用いると, $\epsilon$-greedyのような単純な探索手法を用いてもホライゾンに対して多項式オーダーのsub-optimality gapを達成できることを示し, JSRLの効果と, 成功の条件を示唆しています. 「ガイド方策が最適方策と十分近い」という仮定を厳密に表したのが, 以下のAssumption 4.2です.

Assumption 4.2 (Quality of guide-policy $\pi^g$). Assume that the state is parametrized by some feature mapping $\phi: S \rightarrow \mathbb{R}^d$ such that for any policy $\pi$, $Q^\pi(s, a)$ and $\pi(s)$ depend on s only through $\phi$, and that in the feature space, the guidepolicy $\pi^g$ cover the states visited by the optimal policy:

$$\sup_{s,h} \frac{d^{\pi^*}_h (\phi(s))}{ d^{\pi^g}_h(\phi(s))}\leq C.$$

ここで, $d^\pi_h$は, 方策$\pi$による$h$ステップでの訪問分布です. 直感的には, この仮定は, ガイド方策$\pi^g$が最適方策が訪れる状態を「カバーする」ことを要請しています. そういった意味で, 最適方策と近いということです. この仮定のもと, JSRLが多項式オーダーのsub-optimality gapを達成することが示されています. ここでは, 論文中にTheorem 4.3(Informal)として紹介されているステートメントを取り上げます.

Theorem 4.3 (Informal). Under Assumption 4.2 and an appropriate choice of TrainPolicy and EvaluatePolicy, JSRL in Algorithm 1 guarantees a suboptimality of $\mathcal{O}(C H^{\frac{5}{2}}S^{\frac{1}{2}} A /T^{\frac{1}{2}})$for tabular MDP; and a nearoptimal bound up to factor of $C · \mathrm{poly}(H) $for MDP with general function approximation.

この定理によって, 先程の仮定4.2と適切な訓練アルゴリズムと評価アルゴリズムのもとで, 特定のクラスのMDPで多項式オーダーsub-optimality gapが示されたというわけです. また, 適切な訓練アルゴリズムの中に$\epsilon$-greedyも含まれていることが述べられており, 先程示した指数オーダーのサンプル複雑度を克服していることがわかります.

この解析によって, 「良いガイド方策によって, 探索が促進される」という直感が理論的に正当化されました.

実験

実験では, 事前に学習した方策や価値関数を後続の強化学習の初期値として用いる, 模倣学習+RL, オフライン強化学習+RLの手法と, JSRLの性能を比べています. JSRLのガイド方策にはオフライン強化学習手法IQLで学習した方策を用いています. 評価にはオフライン強化学習ベンチマークD4RLを用いています.

図2が実験の結果です.

1. データ数と性能の関係

結果からわかるように, JSRLは事前学習に用いるデータが多い場合既存手法と同等の性能を示しながら, 事前学習に用いるデータが少ない場合既存手法を大きく凌駕していることがわかります. このことから, JSRLは事前に良質なデータを大量に集められないような設定でも効率的に学習が可能であることが示唆されると筆者らは述べています.

2. カリキュラムの種類と性能

本実験では前述の通り, 徐々にガイド方策が実行するホライゾンを短くしていく通常のカリキュラム(図ではCarriculumと表記)と, ランダムにホライゾンの長さを決定するカリキュラム(図ではRandomと表記)を比較しています. 実験結果から, データが多いレジームではほぼ同等の性能を示すのに対して, データが少ないレジームではCarriculumがRandomを大きく上回っていることが確認できます.

まとめ

いかがだったでしょうか. 今回は事前学習した方策に途中まで「ガイド」してもらって探索を開始することで探索を効率化する枠組み, Jump-Start RLを提案した論文を紹介しました. 探索に用いる強化学習アルゴリズムは自由で, ガイドに用いる方策の種類も問われないので実応用が期待できる枠組みですね. オフラインで事前学習+オンラインファインチューニングは現在注目を集めている枠組みなので, 今後も動向を追ってみてください.

この記事に関するカテゴリー

Kodama