强化学习环境的介绍!
3个要点
✔️用于训练各种强化学习的环境介绍
✔️不同的环境有不同的评价目标,包括那些复杂和长线的任务。
✔️根据你想要评估的内容,选择合适的环境是很重要的。
RL environment list
Contributors by Andrew Szot Joseph Lim Youngwoon Lee dweep trivedi Edward Hu Nitish Gupta
首先
随着最近强化学习研究的进展,人们提出了各种训练强化学习代理的环境。那么,我们应该为我们要训练的代理人选择哪种环境呢? 在这篇文章中,我们将介绍各种强化学习环境中最常使用的一些环境,以帮助你在未来使用强化学习的实验中选择合适的环境。
机器人技术
在本章中,我们介绍了将强化学习用于机器人技术的环境。
洛克苏伊特
Robosuite是一个提供基本操作任务的环境(升降、装配等)。它还可用于评估各种控制器和机器人,目前提供了熊猫、Sawyer、IIWA(KUKA)、Jaco、Kinova3、UR5e和Baxter等的模型。此外,这个环境不仅提供由单个机器人解决的任务,还提供由多个机器人解决的任务,如下图所示。这个环境的好处是,自己创建一个新的环境相对容易,使它成为一个非常有用的基准环境。
robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
宜家家具组装
这是一个使用机器人组装家具的环境,并提供了一个长线任务,非常复杂,需要代理运行很长一段时间。环境提供了80多件家具,而且环境的背景、灯光和纹理都可以轻松改变。目前,Baxter和Sawyer机器人的模型已经上市。该环境还提供了对深度和分割图像的访问。
IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks
元世界
提供了50个不同的Sawyer机器人操作任务。这种环境主要用于多任务学习和其他应用,其中有各种评估模式,有不同数量的任务用于学习和测试。
Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
RLBench
RL Bench也是一个环境,除了上面介绍的环境外,还提供各种操作任务。然而,这个环境也是为几何计算机视觉等研究领域设计的。在这个环境中,也有各种研究领域的简单教程,如Few-shot学习、Meta学习、Sim-To-Real和多任务学习。
RLBench: The Robot Learning Benchmark & Learning Environment
游戏
在本章中,我们介绍了几种将强化学习应用于游戏的环境。
健身房复古
经典的视频游戏已被改编为体育馆环境,约有1000种不同的游戏可供选择。
Gotta Learn Fast: A New Benchmark for Generalization in RL
视觉中国(VizDoom)
VizDoom是一个名为Doom的射击游戏模拟器,可用于利用图像信息学习强化学习。在这个环境中也有一些任务,如击败敌人,收集急救箱等。
ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning
星际争霸2
它是一个接口,允许你运行《星际争霸2》游戏,通过这个接口接收观察,并通过接口向游戏发送动作。这是在DeepMind研究中主要使用的环境,还有其他的。
StarCraft II: A New Challenge for Reinforcement Learning
闽南语
是一个模拟器,可以让你玩一个MineCraft的游戏。
套房
本章介绍了所谓的套件,即一组不同类型的任务和环境。
DeepMind控制套件
在DeepMind提供的环境中,有多种控制任务可供选择。典型的例子包括沃克(Walker)和雷彻(Reacher),前者是一项旨在让代理人行走的任务。在一个二维环境中这种环境在各种研究中被用作基准。这种环境经常被用作各种研究的基准,而且可以很容易地切换代理是否收到图像观察或低维状态。
开放式人工智能体育馆 雅达利
这是OpenAI提供的环境,其中有59个Atari游戏,并给出了图像作为观察结果。
开放式人工智能健身房穆乔科
这是一个提供与连续控制有关的任务的环境,并使用一个非常快的物理模拟器,称为MuJoco。在这种环境下,基本上是以观察的方式给出一个低标准的状态。
开放式人工智能体育馆机器人技术
ShadowHand(左下)和Fetch(右下)这是一个提供任务的环境,这样可以就其中两个机器人给出一个目标。
Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research
导航
在本章中,我们将介绍导航任务。
DeepMind实验室
该环境由DeepMind提供,提供与困难的3D导航有关的任务。它还提供各种任务,如解谜任务。
体育馆-迷你馆
它是一个基于网格、轻量级、快速的环境,主要用于简单的实验。这种环境也很容易使用,因为它很容易被修改和扩展。
AI2THOR
AI2THOR是一个模拟家庭导航,它允许你与各种家具和物体互动。代理人的行动基本上是离散的,主要可用于长距离的任务。
AI2-THOR: An Interactive 3D Environment for Visual AI
吉布森
Gibson和AI2THOR一样,是一个提供与室内导航有关的任务的环境,但在Gibson中,机器人主要是通过连续控制来移动。
Gibson Env: Real-World Perception for Embodied Agents
栖息地
Habitat是Facebook提供的一个模拟器,是一个逼真的环境。因此,它是一个可以被认为对sim2real和其他应用有效的模拟器。
Habitat: A Platform for Embodied AI Research
多Agent
多Agent粒子环境
一个可以训练多Agent RL的简单环境,在这个环境中,连续的值被作为观察值,而行动被表示为离散的。
开放式人工智能多代理竞争环境
如下图所示,它提供了各种连续控制的多代理任务,并主要关注多代理的竞争。
Emergent Complexity via Multi-Agent Competition
OpenAI多Agent捉迷藏
它是一个多代理环境。它是一个多代理环境,它也专注于学习如何使用一个给定的工具(对象)。
安全
强化学习在安全研究领域引起了很多关注。特别是在操作机器人的情况下,选择错误的行动会导致事故。在本章中,我们介绍了一个可以评估强化学习安全性的环境。
辅助-体育馆
共提供了6项辅助任务(抓痒、床上沐浴、喂食、饮水、穿衣、手臂操作)和4种类型的机器人(PR2、Jaco、Baxter、Sawyer)。环境。人类以两种状态存在:一种是不动,一种是在另一措施的作用下动。此外,人类可以使用男性或女性模型,它是由多达40个关节组成的。
Assistive Gym: A Physics Simulation Framework for Assistive Robotics
安全体育馆
这个环境有很多障碍物,如下图所示,主要用于研究强化学习探索过程中的安全性。
Benchmarking Safe Exploration in Deep Reinforcement Learning
自动操作
自主车辆模拟器
这是微软人工智能与研究部的一个自动驾驶模拟器,基于虚幻引擎/Unity。
卡拉
CARLA是一个可以训练和评估自动驾驶的环境,提供的API可以用来设置各种环境条件,如交通状况、行人行为和天气。它还可以访问各种传感器数据,包括激光雷达、多个摄像头、深度传感器和GPS。此外,用户可以创建自己的地图。
CARLA: An Open Urban Driving Simulator
DeepGTAV v2
在GTAV(Grand Theft Auto V)中,它是一个插件,可以做为图像输入自动驾驶的学习。
摘要
在这篇文章中,我们介绍了强化学习的各种环境。由于你需要根据你想评估的内容来选择环境,所以对每个环境能做什么或你能评估什么有一些了解是非常重要的。思考一下,如果有一些东西无法在现在的环境中得到评估,那么需要什么样的新环境也是很有意思的。
与本文相关的类别