对于现实世界中的安全强化学习

强化学习 25/11/2020

三个要点
✔️重视安全的强化学习方法
✔️在源环境中进行预训练，以避免在目标环境中学习时出现风险行为。
✔️成功遏制了目标环境中的危险行为。

Cautious Adaptation For Reinforcement Learning in Safety-Critical Settings
written by Jesse Zhang, Brian Cheung, Chelsea Finn, Sergey Levine, Dinesh Jayaraman
(Submitted on 15 Aug 2020)
Comments: Accepted at ICML2020
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)

介绍

(深度)强化学习已经成功地用于各种领域，包括象棋和围棋等游戏。这种强化学习也被应用到了现实世界的任务中，比如自动驾驶。

然而，在现实世界中，强化学习有时是非常危险的。

在强化学习中，代理人和环境相互作用。在这个过程中，学习的过程是通过实际选择正确或错误的行动来进行的。如果是游戏，就不会涉及到代理人使坏的问题。

但如果是自动驾驶呢？

不用说，在现实世界中，自动驾驶系统一旦出错，就意味着交通事故的发生，造成人员和财产损失。这使得强化学习在最坏情况下可能涉及非常大的损失的情况下非常困难。在这些现实世界的学习情境中，你需要一个系统，让你在学习时不必选择危险的行为。本文介绍的谨慎适应RL（Cautious Adaptation in RL）就是针对这一问题，提前学习风险行为，在学习过程中预防风险行为。

要阅读更多。

你需要在AI-SCHOLAR注册。

1分钟内免费轻松注册

或