赶上最新的AI论文

高速公路的新MDP!可扩展的状态定义(下)

自动驾驶

三个要点
✔️驾驶中的规划(路线规划)

✔️高速公路上的新MDP(马尔科夫决策过程)。
✔️强化学习和逆向强化学习的结合。

Advanced Planning for Autonomous Vehicles Using Reinforcement Learning and Deep Inverse Reinforcement Learning
written by C You, J Lu, D Filev, P Tsiotras
(Submitted on 2019)

Comments: Robotics and Autonomous Systems 114 (2019): 1-18.
Subjects: 分野 (Machine Learning (cs.LG); Machine Learning (stat.ML))

Code介绍:

因司机失误造成的事故越来越多。为此,人们对自动驾驶的兴趣越来越大。如下图所示,自动驾驶有三个层次:感知、规划和控制。本文是对规划部分的研究。

贡献

本文的三大贡献如下

  1. 新的公路MDP模式
    • 考虑到道路的形状,可以很容易地进行扩展。
    • 去掉车辆的速度,使状态空间不至于太大。
  2. 任意非线性奖励函数与Max Ent IRL的泛化。
  3. 无模型MDP的三个Max Ent深度IRL建议

MDP是一个马尔科夫决策过程。在上一篇文章(第一部分)中,解释了所提出的方法。他们为高速公路的交通模型定义了一种新的MDP(Markov Decision Process),并提出了最大熵逆强化学习的扩展。

现在,让我们来看看这个实验。

实验、结果和分析

在本章中,我们将在所述交通模型上实现强化和逆强化学习算法,并对结果进行分析。

交通模拟器

这是本次实验中使用的模拟器的内容,它是使用Pygame Python库创建的。车道数为5条。不区分车辆类型(卡车、轿车等)。每个电动车都有一个随机策略。随机策略利用周围所有的车辆(HV和EV)来定义状态$s_{EV}$,找到一组不会导致EV碰撞的动作,然后从这组动作中随机确定一个动作。

通过强化学习设定驾驶行为(专家)

在这里,你将使用强化学习来获得专家级的驾驶行为。在这种情况下,我们有两种权重:超车和跟车。设计权重$w_1$(超车)和$w_2$(跟随)见表1。

通过对$w_1$的设计,期望的驾驶行为(超车)如下。

  1. 如果HV前面的细胞是自由的,HV就会加速并占据前面的细胞。
  2. 如果HV前方有EV,无法通过,HV将保持其速度。
  3. 当只有一方能通过时,HV通过先变道、加速,再保持速度的方式超越前面的电动车。
  4. HV从弯道内侧超车,如果能从两边超车的话
  5. HVs不换车道,除非他们正在通过。
  6. 刹车时,HV不占用后排电池。
  7. 不允许发生冲突。

通过对$w_2$的设计,期望的操作行为(后续)如下所示

  1. 当EV在HV前面时,HV会保持其速度。
  2. 当车辆前方小区空闲,且车道变化不会导致其跟随时,HV会加速占据前方小区。
  3. 当HV前方没有EV时,HV会改变车道跟随EV。
  4. 电动车喜欢跟在弯道内的车辆后面。
  5. 高速公路除非遵循以下规定,否则不得变更车道。
  6. 刹车时,HV不占用后排电池。
  7. 不允许发生冲突。

他们使用Q-learning来学习这些最优策略。$w_1$:$w_1^*$和$w_2$:$w_2^*$对应$w_1$:$/pi_1^*$。下图是收敛的情况。

下面是一个使用政策$1^*$进行模拟的结果的例子。

第一条线是指HV前方有空间的情况;HV加速,在黄车后面。

第二条线是指HV前面有一辆车,左右车道都可以超车的情况。由于道路是一条直线,所以可以从任何一边超车。在这种情况下,汽车从左侧超车,并加速直到追上蓝车。

第三条线是车辆在HV前方和右侧的情况,HV只能使用左侧车道通行。

4号线是指HV前面有一辆车,左右车道都可以超车的情况。车子向右变道,在弯道内,加速行驶,但没有完成通行,因为青色的车也在加速。

这些行为与我们在设计权重$w_1$时瞄准的行为是一致的,并且已经成功地学会了。

通过逆向强化学习获得驾驶行为。

首先,我们选择图8.中DNN的结构来表示奖励函数。在这种情况下,在这用的是第二种,比较方便。状态向量$s_t$是9辆汽车(1辆HV和8辆EV)的位置和道路类型的10个维度。在$A$中有五个动作。分别是车速保持、加速、减速、右侧变道和左侧变道。模拟初始状态$s_0$如图11所示,在5车道的中间车道上,HV周围有3辆电动车。仿真持续时间$T$为1500,演示次数为500。

接下来,实现了三种类型的最大熵逆强化学习,算法4是传统的最大熵逆强化学习,算法5和6是提出的最大熵逆强化学习的方法。不同的是分割$$Delta T$的持续时间。结果如表2所示。

表2显示,传统的方法,即算法4,并没有收敛。这是由于系统的数据长度较长和概率行为。所提出的算法5和6收敛,但计算时间比算法6短,因为算法5没有计算状态动作对的访问次数的期望值,因为$/Delta T =1$。

还在模拟中实现了学习措施${\hat\pi}_1^*$(超车)和${\hat\pi}_2^*$(跟随)。由于${\hat\pi}_1^*$与$\pi_1^*$相同,所以与图10相同。图12.显示了${\hat\pi}_2^*$,如图12所示。

第一条线是在HV前面有空间的情况下,HV通过变道无法跟上电动车,所以它加速填补前面的空间。

第二条线是HV向左变道跟随的情况。

第三条线与第二条线类似,但却是拐弯抹角的情况。

在4号线中,HV可以通过两侧变道的方式沿道路左侧行驶,但它更喜欢沿曲线左侧行驶。

这些动作与设计权重$w_2$时所针对的动作是一致的,可以说,他们已经成功地从度量$w_2$中得到了度量。

结论:

采用随机马尔科夫决策过程对交通进行建模和强化,并采用逆强化学习来实现预期的驾驶行为。状态和MDP交通模型定义灵活,可以为任意数量的车道和任意数量的电动汽车建立交通模型。考虑到驾驶策略可能会随着道路上的弯道而改变。虽然状态定义很容易扩展,并有效地解决了MDP问题,但该模型并没有区分不同的车速或车辆类型,而是将每辆车作为一个质量点。要将本文的结果用于现实世界的场景中,还需要做更多的工作。例如,根据交通中的(相对)速度动态改变MDP状态的大小。通过对驾驶员奖励函数的设计,我们可以利用Q-learning学习相应的最优策略,并展示典型的驾驶行为,如超车和跟车。

为了从数据中恢复措施和奖励函数,我们提出了一种新的基于最大熵原理的无模型逆强化学习方法。现有的方法大多是$R(s)$,但我们使用了$R(s,a)$,它可以设计出更多样化的运气行为。它是最大熵逆强化学习的第一个泛化,具有任意参数化的连续可微分函数近似(DNNs)。

我们已经表明,当概率系统的知识有限时,很难使用长演示进行IRL。

错误的产生主要有两个因素。

  1. 如果数据量不足以代表系统的随机行为
  2. 如果在无模型问题中,一个随机系统的预测误差随着时间的推移而积累并变得很大。

相比之下,他们对IRL算法进行了改进,将demo分成较短的数据片,并最大化数据片上的同期分布熵。

通过模拟验证了所提出的方法。

摘要

未来的发展方向包括在高保真模拟或真实世界任务中引入部分观测MDP设计控制器,在不完全感知决策中引入部分观测MDP,以及利用CARLA等模拟应用本方法,引入多代理更好地控制交通流。如果能用上它,那就有意思了。在驾驶中也需要处理不完美的感知,因为据说它是存在的。虽然本文不是端到端的驾驶方法,但新的MDP是非常有吸引力的,因为它可以扩展。如果它能作为其他端到端方法的规划辅助,可能有助于防止事故和缓解交通拥堵。虽然在现实世界的任务中使用这种方法可能会很困难,但如果能像导航命令一样使用它,并将其与控制结合起来,那就很有意思了。

参考文献

1]尤长喜,陆剑波,Dimitar Filev,Panagiotis Tsiotras."Advanced planning for autonomous vehicles using reinforcement learning and deep inverse reinforcement learning."Robotics and Autonomous Systems 114(2019):1-18.

[2]E.T.Jaynes,"Information theory and statistical mechanics",Phys.Rev.106(4)(1957)620-630.

 

AI活动信息 AI服务搜索

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们