赶上最新的AI论文

强化学习环境的介绍!

调查

3个要点
✔️用于训练各种强化学习的环境介绍
✔️不同的环境有不同的评价目标,包括那些复杂和长线的任务。

✔️根据你想要评估的内容,选择合适的环境是很重要的。

RL environment list
Contributors by Andrew Szot Joseph Lim Youngwoon Lee dweep trivedi Edward Hu Nitish Gupta

首先

随着最近强化学习研究的进展,人们提出了各种训练强化学习代理的环境。那么,我们应该为我们要训练的代理人选择哪种环境呢? 在这篇文章中,我们将介绍各种强化学习环境中最常使用的一些环境,以帮助你在未来使用强化学习的实验中选择合适的环境。

机器人技术

在本章中,我们介绍了将强化学习用于机器人技术的环境。

洛克苏伊特

Robosuite是一个提供基本操作任务的环境(升降、装配等)。它还可用于评估各种控制器和机器人,目前提供了熊猫、Sawyer、IIWA(KUKA)、Jaco、Kinova3、UR5e和Baxter等的模型。此外,这个环境不仅提供由单个机器人解决的任务,还提供由多个机器人解决的任务,如下图所示。这个环境的好处是,自己创建一个新的环境相对容易,使它成为一个非常有用的基准环境。

robosuite: A Modular Simulation Framework and Benchmark for Robot Learning

宜家家具组装

这是一个使用机器人组装家具的环境,并提供了一个长线任务,非常复杂,需要代理运行很长一段时间。环境提供了80多件家具,而且环境的背景、灯光和纹理都可以轻松改变。目前,Baxter和Sawyer机器人的模型已经上市。该环境还提供了对深度和分割图像的访问。

IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks

元世界

提供了50个不同的Sawyer机器人操作任务。这种环境主要用于多任务学习和其他应用,其中有各种评估模式,有不同数量的任务用于学习和测试。

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

RLBench

RL Bench也是一个环境,除了上面介绍的环境外,还提供各种操作任务。然而,这个环境也是为几何计算机视觉等研究领域设计的。在这个环境中,也有各种研究领域的简单教程,如Few-shot学习、Meta学习、Sim-To-Real和多任务学习。

RLBench: The Robot Learning Benchmark & Learning Environment

游戏

在本章中,我们介绍了几种将强化学习应用于游戏的环境。

健身房复古

经典的视频游戏已被改编为体育馆环境,约有1000种不同的游戏可供选择。

Gotta Learn Fast: A New Benchmark for Generalization in RL

视觉中国(VizDoom)

VizDoom是一个名为Doom的射击游戏模拟器,可用于利用图像信息学习强化学习。在这个环境中也有一些任务,如击败敌人,收集急救箱等。

ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning

星际争霸2

它是一个接口,允许你运行《星际争霸2》游戏,通过这个接口接收观察,并通过接口向游戏发送动作。这是在DeepMind研究中主要使用的环境,还有其他的。

StarCraft II: A New Challenge for Reinforcement Learning

闽南语

是一个模拟器,可以让你玩一个MineCraft的游戏。

套房

本章介绍了所谓的套件,即一组不同类型的任务和环境。

DeepMind控制套件

在DeepMind提供的环境中,有多种控制任务可供选择。典型的例子包括沃克(Walker)和雷彻(Reacher),前者是一项旨在让代理人行走的任务。在一个二维环境中这种环境在各种研究中被用作基准。这种环境经常被用作各种研究的基准,而且可以很容易地切换代理是否收到图像观察或低维状态。

DeepMind Control Suite

开放式人工智能体育馆 雅达利

这是OpenAI提供的环境,其中有59个Atari游戏,并给出了图像作为观察结果。

OpenAI Gym

开放式人工智能健身房穆乔科

这是一个提供与连续控制有关的任务的环境,并使用一个非常快的物理模拟器,称为MuJoco。在这种环境下,基本上是以观察的方式给出一个低标准的状态。

开放式人工智能体育馆机器人技术

ShadowHand(左下)和Fetch(右下)这是一个提供任务的环境,这样可以就其中两个机器人给出一个目标。

Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research

导航

在本章中,我们将介绍导航任务。

DeepMind实验室

该环境由DeepMind提供,提供与困难的3D导航有关的任务。它还提供各种任务,如解谜任务。

DeepMind Lab

体育馆-迷你馆

它是一个基于网格、轻量级、快速的环境,主要用于简单的实验。这种环境也很容易使用,因为它很容易被修改和扩展。

AI2THOR

AI2THOR是一个模拟家庭导航,它允许你与各种家具和物体互动。代理人的行动基本上是离散的,主要可用于长距离的任务。

AI2-THOR: An Interactive 3D Environment for Visual AI

吉布森

Gibson和AI2THOR一样,是一个提供与室内导航有关的任务的环境,但在Gibson中,机器人主要是通过连续控制来移动。

Gibson Env: Real-World Perception for Embodied Agents 

栖息地

Habitat是Facebook提供的一个模拟器,是一个逼真的环境。因此,它是一个可以被认为对sim2real和其他应用有效的模拟器。

Habitat: A Platform for Embodied AI Research

多Agent

多Agent粒子环境

一个可以训练多Agent RL的简单环境,在这个环境中,连续的值被作为观察值,而行动被表示为离散的。

开放式人工智能多代理竞争环境

如下图所示,它提供了各种连续控制的多代理任务,并主要关注多代理的竞争。

Emergent Complexity via Multi-Agent Competition

OpenAI多Agent捉迷藏

它是一个多代理环境。它是一个多代理环境,它也专注于学习如何使用一个给定的工具(对象)。

Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-supervised Object and Action Localization

安全

强化学习在安全研究领域引起了很多关注。特别是在操作机器人的情况下,选择错误的行动会导致事故。在本章中,我们介绍了一个可以评估强化学习安全性的环境。

辅助-体育馆

共提供了6项辅助任务(抓痒、床上沐浴、喂食、饮水、穿衣、手臂操作)和4种类型的机器人(PR2、Jaco、Baxter、Sawyer)。环境。人类以两种状态存在:一种是不动,一种是在另一措施的作用下动。此外,人类可以使用男性或女性模型,它是由多达40个关节组成的。

Assistive Gym: A Physics Simulation Framework for Assistive Robotics

安全体育馆

这个环境有很多障碍物,如下图所示,主要用于研究强化学习探索过程中的安全性。

Benchmarking Safe Exploration in Deep Reinforcement Learning

自动操作

自主车辆模拟器

这是微软人工智能与研究部的一个自动驾驶模拟器,基于虚幻引擎/Unity。

卡拉

CARLA是一个可以训练和评估自动驾驶的环境,提供的API可以用来设置各种环境条件,如交通状况、行人行为和天气。它还可以访问各种传感器数据,包括激光雷达、多个摄像头、深度传感器和GPS。此外,用户可以创建自己的地图。

CARLA: An Open Urban Driving Simulator

DeepGTAV v2

在GTAV(Grand Theft Auto V)中,它是一个插件,可以做为图像输入自动驾驶的学习。

摘要

在这篇文章中,我们介绍了强化学习的各种环境。由于你需要根据你想评估的内容来选择环境,所以对每个环境能做什么或你能评估什么有一些了解是非常重要的。思考一下,如果有一些东西无法在现在的环境中得到评估,那么需要什么样的新环境也是很有意思的。 

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们