都市部の自動運転の実現へ!強化学習による自動運転の最新手法
3つの要点
✔️ 都市部における自動運転を実現するための強化学習手法を提案
✔️ Implicit Affordances により、運転に必要な特徴を抽出するエンコーダを事前学習
✔️ CARLAシミュレータによる実験で、都市部での運転における有効性を検証
End-to-End Model-Free Reinforcement Learning for Urban Driving Using Implicit Affordances
written by Marin Toromanoff, Emilie Wirbel, Fabien Moutarde
(Submitted on 25 Nov 2019 (v1), last revised 16 Mar 2020 (this version, v2))
Comments: Accepted at main conference of CVPR2020
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Robotics (cs.RO); Machine Learning (stat.ML)
Paper Official Code COMM Code
はじめに
今回紹介する論文は、都市部での自動運転を強化学習で実現するための手法です。
自動運転の実現に向けて、研究が盛んに行われています。運転のシチュエーションの中でも、最も困難なシチュエーションともいえるのが、都市部における運転です。都市部では、信号のある交差点では、信号の状態を検知し、それに従う必要があります。また、横断歩道を渡る歩行者や周りを走る自動車やバイク等との衝突を回避する必要もあるため、都市部での自動運転は複雑なタスクであるといえるでしょう。
このように、複雑で様々な状況が想定される場合には、それらのすべてのシチュエーションを網羅するようなルールを構築する、所謂ルールベースの手法を適用するのは困難です。そこで、End-to-Endの自動運転システムが注目されており、その中でも強化学習を用いた自動運転システムに注目がされています。
強化学習自動運転システムの課題
自動運転システムに強化学習を適用する場合の課題として、以下の2つが挙げられます。
- 強化学習は教師あり学習よりも大量のデータが必要であり、
大きなネットワークを学習するのが困難 - 価値ベースのアルゴリズム(DQN等)のアルゴリズムでは、
Replay Memoryに経験を保存するため、画像を状態とする場合には膨大なメモリが必要
1つ目のような課題があるため、画像を入力として様々なシチュエーションに対応できる行動を出力する方策ネットワークを学習することが困難です。
2つ目の課題であるメモリについて、メモリが不足している場合には、画像サイズを小さくすることで対処することになります。しかし、画像サイズを制限することにより画像の表現力が落ちることになります。自動運転の際に方策への入力となる画像の例を以下に示します。信号が非常に小さく、画像サイズを小さくしてしまうと認識するのが困難です。信号検知は、自動運転において最も重要なタスクの1つであるため、画像サイズを小さくすることにより、メモリ不足に対処するのは望ましくないでしょう。
方策への入力画像の例
提案手法
Implicit Affordances
提案手法の流れを以下に示します。
- ResNet-18で構築したエンコーダを複数の事前学習用のタスク(教師あり学習)で
共有し、それぞれのタスクを学習 - 画像の代わりに学習したエンコーダが出力する特徴量(512×4×4)を
強化学習における状態として扱い、強化学習により方策を学習
1のエンコーダの事前学習に使用されたタスクを以下の通りです。
- セマンティックセグメンテーション
- 信号の状態予測(赤信号 or 青信号)
- 信号までの距離予測
- 交差点の識別(交差点にいるかどうか)
- 車線に対する回転量(車線と車体の角度)
このように、運転に関連したタスクでエンコーダの事前学習を行うことで、エンコーダが運転に関連する特徴量を抽出することが期待されます。
Implicit Affordances の概要
エンコーダ事前学習用のデータ収集
エンコーダの事前学習フェーズのために、走行時にカメラにより得られる画像を収集する必要があります。その学習データは、CARLAシミュレータのオートパイロット機能により収集しました。しかし、オートパイロット機能では、常に車線の中央を走り続けるため、車線を逸脱したときのカメラ画像を収集することができません。
このように、車線の中央を走行して得られる画像だけで事前学習を行ってしまうと、学習したエンコーダが車線中央の画像に過学習します。その結果、強化学習で方策の学習を行うときにエンコーダが有効に機能しないと考えられます。(特に、車線から逸脱したときは機能しない)
そのため、オートパイロットによるデータの収集時には、カメラを回転させて前方以外の画像も学習データとして収集することで、この問題に対処しています。
強化学習フェーズ
強化学習アルゴリズムは、Rainbow-IQN Ape-Xが採用されています。Rainbow-IQN Ape-Xは、AtariベンチマークでState-of-th-Artを達成しています。強化学習アルゴリズムには、価値ベースのアルゴリズムと方策ベースのアルゴリズムがありますが、価値ベースの方がデータ効率が良いため採用されています。
報酬は,以下の4つの要素により構成されています。
- Desired Speed ($0 \leq r_s \leq 1$)
- 状況別に設定された目標速度に近い速度であるほど高い報酬が得られる。例を下の図に示す。
- Desired Position ($-1 \leq r_p \leq 0$)
- 車体が車線の中央に近いほど高い報酬が得られる。
- Desired Rotation
- 車体と目標の姿勢の角度差が小さいほど高い報酬となる。
- Terminalte Situation($r_T = -1$)
- 終了条件(車線逸脱、物体との衝突、信号無視、意味のない停止)を満たしたときに罰則を与える。
Desired Speed の例
価値ベースの強化学習アルゴリズムでは、離散的な行動を扱います。そのため、自動運転のための行動も離散化します。自動運転に必要な行動は、加減速(アクセルorブレーキ)とステアリングです。本論文では、それぞれについて離散化する値を予備実験により決定しています。
まず、ステアリングについては、左右の最大値までのステアリング角を9分割または27分割します。次に、加減速については、加速について3種類、減速について1種類の合計4種類の値を設定することで離散化を行います。
行動の離散化 (左: ステアリング 右:アクセルとブレーキ)
また、エージェントの振る舞いの振動を抑制するために、バギングの使用も提案しています。バギングにより、複数の離散値の予測を獲得し、それらの離散値の平均をとることで、さらにきめ細かい行動を獲得することが可能です。このバギングによる行動の安定化を用いることで、大きな振動が減少し、最終的なパフォーマンスも向上します。
実験
実験環境
実験ではCARLAシミュレータを使用します。CARLAシミュレータでは、GPS、LIDAR、HD Map、WayPoints、 Sensors 等の情報を取得できる設定にすることも可能ですが、本実験では、前方のカメラ画像だけを取得できる設定にしています。
実験結果
まずは、提案手法の有効性を動画で確認しましょう。この動画では、CARLAシミュレータにおける未知の環境(学習に使用していない環境)での走行結果が示されています。この動画から、都市部で他の車や横断する歩行者との衝突を回避し、信号を守りながら走行している様子が確認できます。
続いて、従来手法との比較をCARLAベンチマークにより実施した結果を確認します。それぞれの表の一番左の列が強化学習による従来手法のスコアです。提案手法のスコアは一番右の列であり、強化学習の従来手法よりも優れていることが確認できます。また、模倣学習の従来手法との比較も行っており、それらの手法と同等またはそれ以上のスコアを達成していることが確認できます。
最後に、Ablation Studiesを紹介します。学習のステップ数に対する交差点の通過成功率の増加量を下の図に示します。図中の波線が Implicit Affordances を使用せずに強化学習を行った場合の結果で、実線が Implicit Affordances を導入した場合の結果です。Implicit Affordances 導入前は学習がほとんど進んでいないのに対して、Implicit Affordancesを導入した場合には学習が進んでいることが確認できます。
また、3種類の実線はそれぞれ、すべての事前学習タスクを行った場合(青)、セマンティックセグメンテーションを除いた場合(赤)、信号の状態予測を除いた場合(緑)を表しています。この3種類の実践の比較から、セマンティックセグメンテーションと信号の状態予測の重要性が示されています。
学習ステップ数に対する信号通過成功率の変化
まとめ
今回は都市部での自動運転を実現するための強化学習手法を紹介しました。提案手法では、運転に関連するタスクでネットワークの事前学習を行います。そして、学習したネットワークのエンコーダを特徴抽出器として扱い、その特徴量を強化学習における状態として扱います。これにより、状態の次元数を削減し、学習の進行を助けます。また、Replay Memory には、画像の代わりに特徴量を保存することになるため、必要となるメモリを削減することができます。
実験では、強化学習や模倣学習の従来手法と同等またはそれ以上のスコアを達成していることが示されました。
今回の論文では、価値ベースの強化学習アルゴリズムを使用していましたが、方策ベースの強化学習アルゴリズムとの比較が今後の検討事項となりそうです。また、Implicit Affordances を自動運転に適用していましたが、それ以外のアプリケーションにも応用できそうだと考えられます。
類似論文レコメンド
Dynamic Routing Between Capsules
written by Ashish Mehta, Adithya Subramanian, Anbumani Subramanian
(Submitted on 30 Aug 2018)
Comments: Accepted at arXiv
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Robotics (cs.RO); Machine Learning (stat.ML)
Paper Official Code COMM Code
CARLA: An Open Urban Driving Simulator
written by Alexey Dosovitskiy, German Ros, Felipe Codevilla, Antonio Lopez, Vladlen Koltun
(Submitted on 26 Oct 2017 (v1), last revised 7 Nov 2017 (this version, v2))
Comments: Accepted at the 1st Conference on Robot Learning (CoRL)
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Robotics (cs.RO)
Paper Official Code COMM Code
CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving
written by Xiaodan Liang, Tairui Wang, Luona Yang, Eric Xing
(Submitted on 10 Jul 2018)
Comments: Accepted at ECCV2018
Subjects: Computer Vision and Pattern Recognition (cs.CV); Robotics (cs.RO)
Paper Official Code COMM Code
この記事に関するカテゴリー