高速公路的新MDP！可扩展的状态定义（下）

自动驾驶 30/09/2020

三个要点
✔️驾驶中的规划（路线规划）

✔️高速公路上的新MDP（马尔科夫决策过程）。
✔️强化学习和逆向强化学习的结合。

Advanced Planning for Autonomous Vehicles Using Reinforcement Learning and Deep Inverse Reinforcement Learning
written by C You, J Lu, D Filev, P Tsiotras
(Submitted on 2019)
Comments: Robotics and Autonomous Systems 114 (2019): 1-18.
Subjects: 分野 (Machine Learning (cs.LG); Machine Learning (stat.ML))

Code介绍：

因司机失误造成的事故越来越多。为此，人们对自动驾驶的兴趣越来越大。如下图所示，自动驾驶有三个层次：感知、规划和控制。本文是对规划部分的研究。

贡献

本文的三大贡献如下

新的公路MDP模式
- 考虑到道路的形状，可以很容易地进行扩展。
- 去掉车辆的速度，使状态空间不至于太大。
任意非线性奖励函数与Max Ent IRL的泛化。
无模型MDP的三个Max Ent深度IRL建议

MDP是一个马尔科夫决策过程。在上一篇文章（第一部分）中，解释了所提出的方法。他们为高速公路的交通模型定义了一种新的MDP(Markov Decision Process)，并提出了最大熵逆强化学习的扩展。

现在，让我们来看看这个实验。

实验、结果和分析

在本章中，我们将在所述交通模型上实现强化和逆强化学习算法，并对结果进行分析。

交通模拟器

这是本次实验中使用的模拟器的内容，它是使用Pygame Python库创建的。车道数为5条。不区分车辆类型（卡车、轿车等）。每个电动车都有一个随机策略。随机策略利用周围所有的车辆（HV和EV）来定义状态$s_{EV}$，找到一组不会导致EV碰撞的动作，然后从这组动作中随机确定一个动作。

通过强化学习设定驾驶行为（专家）

在这里，你将使用强化学习来获得专家级的驾驶行为。在这种情况下，我们有两种权重：超车和跟车。设计权重$w_1$(超车)和$w_2$(跟随)见表1。

通过对$w_1$的设计，期望的驾驶行为（超车）如下。

如果HV前面的细胞是自由的，HV就会加速并占据前面的细胞。
如果HV前方有EV，无法通过，HV将保持其速度。
当只有一方能通过时，HV通过先变道、加速，再保持速度的方式超越前面的电动车。
HV从弯道内侧超车，如果能从两边超车的话
HVs不换车道，除非他们正在通过。
刹车时，HV不占用后排电池。
不允许发生冲突。

通过对$w_2$的设计，期望的操作行为（后续）如下所示

当EV在HV前面时，HV会保持其速度。
当车辆前方小区空闲，且车道变化不会导致其跟随时，HV会加速占据前方小区。
当HV前方没有EV时，HV会改变车道跟随EV。
电动车喜欢跟在弯道内的车辆后面。
高速公路除非遵循以下规定，否则不得变更车道。
刹车时，HV不占用后排电池。
不允许发生冲突。

他们使用Q-learning来学习这些最优策略。$w_1$：$w_1^*$和$w_2$：$w_2^*$对应$w_1$：$/pi_1^*$。下图是收敛的情况。

下面是一个使用政策$1^*$进行模拟的结果的例子。

第一条线是指HV前方有空间的情况；HV加速，在黄车后面。

第二条线是指HV前面有一辆车，左右车道都可以超车的情况。由于道路是一条直线，所以可以从任何一边超车。在这种情况下，汽车从左侧超车，并加速直到追上蓝车。

第三条线是车辆在HV前方和右侧的情况，HV只能使用左侧车道通行。

4号线是指HV前面有一辆车，左右车道都可以超车的情况。车子向右变道，在弯道内，加速行驶，但没有完成通行，因为青色的车也在加速。

这些行为与我们在设计权重$w_1$时瞄准的行为是一致的，并且已经成功地学会了。

通过逆向强化学习获得驾驶行为。

首先，我们选择图8.中DNN的结构来表示奖励函数。在这种情况下，在这用的是第二种，比较方便。状态向量$s_t$是9辆汽车（1辆HV和8辆EV）的位置和道路类型的10个维度。在$A$中有五个动作。分别是车速保持、加速、减速、右侧变道和左侧变道。模拟初始状态$s_0$如图11所示，在5车道的中间车道上，HV周围有3辆电动车。仿真持续时间$T$为1500，演示次数为500。

接下来，实现了三种类型的最大熵逆强化学习，算法4是传统的最大熵逆强化学习，算法5和6是提出的最大熵逆强化学习的方法。不同的是分割$$Delta T$的持续时间。结果如表2所示。

表2显示，传统的方法，即算法4，并没有收敛。这是由于系统的数据长度较长和概率行为。所提出的算法5和6收敛，但计算时间比算法6短，因为算法5没有计算状态动作对的访问次数的期望值，因为$/Delta T =1$。

还在模拟中实现了学习措施${\hat\pi}_1^*$（超车）和${\hat\pi}_2^*$（跟随）。由于${\hat\pi}_1^*$与$\pi_1^*$相同，所以与图10相同。图12.显示了${\hat\pi}_2^*$，如图12所示。

第一条线是在HV前面有空间的情况下，HV通过变道无法跟上电动车，所以它加速填补前面的空间。

第二条线是HV向左变道跟随的情况。

第三条线与第二条线类似，但却是拐弯抹角的情况。

在4号线中，HV可以通过两侧变道的方式沿道路左侧行驶，但它更喜欢沿曲线左侧行驶。

这些动作与设计权重$w_2$时所针对的动作是一致的，可以说，他们已经成功地从度量$w_2$中得到了度量。

结论：

采用随机马尔科夫决策过程对交通进行建模和强化，并采用逆强化学习来实现预期的驾驶行为。状态和MDP交通模型定义灵活，可以为任意数量的车道和任意数量的电动汽车建立交通模型。考虑到驾驶策略可能会随着道路上的弯道而改变。虽然状态定义很容易扩展，并有效地解决了MDP问题，但该模型并没有区分不同的车速或车辆类型，而是将每辆车作为一个质量点。要将本文的结果用于现实世界的场景中，还需要做更多的工作。例如，根据交通中的（相对）速度动态改变MDP状态的大小。通过对驾驶员奖励函数的设计，我们可以利用Q-learning学习相应的最优策略，并展示典型的驾驶行为，如超车和跟车。

为了从数据中恢复措施和奖励函数，我们提出了一种新的基于最大熵原理的无模型逆强化学习方法。现有的方法大多是$R(s)$，但我们使用了$R(s,a)$，它可以设计出更多样化的运气行为。它是最大熵逆强化学习的第一个泛化，具有任意参数化的连续可微分函数近似（DNNs）。

我们已经表明，当概率系统的知识有限时，很难使用长演示进行IRL。

错误的产生主要有两个因素。

如果数据量不足以代表系统的随机行为
如果在无模型问题中，一个随机系统的预测误差随着时间的推移而积累并变得很大。

相比之下，他们对IRL算法进行了改进，将demo分成较短的数据片，并最大化数据片上的同期分布熵。

通过模拟验证了所提出的方法。

摘要

未来的发展方向包括在高保真模拟或真实世界任务中引入部分观测MDP设计控制器，在不完全感知决策中引入部分观测MDP，以及利用CARLA等模拟应用本方法，引入多代理更好地控制交通流。如果能用上它，那就有意思了。在驾驶中也需要处理不完美的感知，因为据说它是存在的。虽然本文不是端到端的驾驶方法，但新的MDP是非常有吸引力的，因为它可以扩展。如果它能作为其他端到端方法的规划辅助，可能有助于防止事故和缓解交通拥堵。虽然在现实世界的任务中使用这种方法可能会很困难，但如果能像导航命令一样使用它，并将其与控制结合起来，那就很有意思了。

参考文献

1]尤长喜，陆剑波，Dimitar Filev，Panagiotis Tsiotras."Advanced planning for autonomous vehicles using reinforcement learning and deep inverse reinforcement learning."Robotics and Autonomous Systems 114（2019）：1-18.

[2]E.T.Jaynes，"Information theory and statistical mechanics"，Phys.Rev.106（4）（1957）620-630.

AI活动信息 AI服务搜索