赶上最新的AI论文

什么是AI-SCHOLAR？

强化学习环境的介绍!

调查 14/05/2021

3个要点
✔️用于训练各种强化学习的环境介绍
✔️不同的环境有不同的评价目标，包括那些复杂和长线的任务。
✔️根据你想要评估的内容，选择合适的环境是很重要的。

RL environment list
Contributors by Andrew Szot Joseph Lim Youngwoon Lee dweep trivedi Edward Hu Nitish Gupta

首先

随着最近强化学习研究的进展，人们提出了各种训练强化学习代理的环境。那么，我们应该为我们要训练的代理人选择哪种环境呢？　在这篇文章中，我们将介绍各种强化学习环境中最常使用的一些环境，以帮助你在未来使用强化学习的实验中选择合适的环境。

机器人技术

在本章中，我们介绍了将强化学习用于机器人技术的环境。

洛克苏伊特

Robosuite是一个提供基本操作任务的环境（升降、装配等）。它还可用于评估各种控制器和机器人，目前提供了熊猫、Sawyer、IIWA（KUKA）、Jaco、Kinova3、UR5e和Baxter等的模型。此外，这个环境不仅提供由单个机器人解决的任务，还提供由多个机器人解决的任务，如下图所示。这个环境的好处是，自己创建一个新的环境相对容易，使它成为一个非常有用的基准环境。

robosuite: A Modular Simulation Framework and Benchmark for Robot Learning

宜家家具组装

这是一个使用机器人组装家具的环境，并提供了一个长线任务，非常复杂，需要代理运行很长一段时间。环境提供了80多件家具，而且环境的背景、灯光和纹理都可以轻松改变。目前，Baxter和Sawyer机器人的模型已经上市。该环境还提供了对深度和分割图像的访问。

IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks

元世界

提供了50个不同的Sawyer机器人操作任务。这种环境主要用于多任务学习和其他应用，其中有各种评估模式，有不同数量的任务用于学习和测试。

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

RLBench

RL Bench也是一个环境，除了上面介绍的环境外，还提供各种操作任务。然而，这个环境也是为几何计算机视觉等研究领域设计的。在这个环境中，也有各种研究领域的简单教程，如Few-shot学习、Meta学习、Sim-To-Real和多任务学习。

RLBench: The Robot Learning Benchmark & Learning Environment

游戏

在本章中，我们介绍了几种将强化学习应用于游戏的环境。

健身房复古

经典的视频游戏已被改编为体育馆环境，约有1000种不同的游戏可供选择。

Gotta Learn Fast: A New Benchmark for Generalization in RL

视觉中国（VizDoom）

VizDoom是一个名为Doom的射击游戏模拟器，可用于利用图像信息学习强化学习。在这个环境中也有一些任务，如击败敌人，收集急救箱等。

ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning

星际争霸2

它是一个接口，允许你运行《星际争霸2》游戏，通过这个接口接收观察，并通过接口向游戏发送动作。这是在DeepMind研究中主要使用的环境，还有其他的。

StarCraft II: A New Challenge for Reinforcement Learning

闽南语

是一个模拟器，可以让你玩一个MineCraft的游戏。

套房

本章介绍了所谓的套件，即一组不同类型的任务和环境。

DeepMind控制套件

在DeepMind提供的环境中，有多种控制任务可供选择。典型的例子包括沃克（Walker）和雷彻（Reacher），前者是一项旨在让代理人行走的任务。在一个二维环境中这种环境在各种研究中被用作基准。这种环境经常被用作各种研究的基准，而且可以很容易地切换代理是否收到图像观察或低维状态。

DeepMind Control Suite

开放式人工智能体育馆雅达利

这是OpenAI提供的环境，其中有59个Atari游戏，并给出了图像作为观察结果。

开放式人工智能健身房穆乔科

这是一个提供与连续控制有关的任务的环境，并使用一个非常快的物理模拟器，称为MuJoco。在这种环境下，基本上是以观察的方式给出一个低标准的状态。

开放式人工智能体育馆机器人技术

ShadowHand（左下）和Fetch（右下）这是一个提供任务的环境，这样可以就其中两个机器人给出一个目标。

Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research

导航

在本章中，我们将介绍导航任务。

DeepMind实验室

该环境由DeepMind提供，提供与困难的3D导航有关的任务。它还提供各种任务，如解谜任务。

体育馆-迷你馆

它是一个基于网格、轻量级、快速的环境，主要用于简单的实验。这种环境也很容易使用，因为它很容易被修改和扩展。

AI2THOR

AI2THOR是一个模拟家庭导航，它允许你与各种家具和物体互动。代理人的行动基本上是离散的，主要可用于长距离的任务。

AI2-THOR: An Interactive 3D Environment for Visual AI

吉布森

Gibson和AI2THOR一样，是一个提供与室内导航有关的任务的环境，但在Gibson中，机器人主要是通过连续控制来移动。

Gibson Env: Real-World Perception for Embodied Agents

栖息地

Habitat是Facebook提供的一个模拟器，是一个逼真的环境。因此，它是一个可以被认为对sim2real和其他应用有效的模拟器。

Habitat: A Platform for Embodied AI Research

多Agent

多Agent粒子环境

一个可以训练多Agent RL的简单环境，在这个环境中，连续的值被作为观察值，而行动被表示为离散的。

开放式人工智能多代理竞争环境

如下图所示，它提供了各种连续控制的多代理任务，并主要关注多代理的竞争。

Emergent Complexity via Multi-Agent Competition

OpenAI多Agent捉迷藏

它是一个多代理环境。它是一个多代理环境，它也专注于学习如何使用一个给定的工具（对象）。

Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-supervised Object and Action Localization

安全

强化学习在安全研究领域引起了很多关注。特别是在操作机器人的情况下，选择错误的行动会导致事故。在本章中，我们介绍了一个可以评估强化学习安全性的环境。

辅助-体育馆

共提供了6项辅助任务（抓痒、床上沐浴、喂食、饮水、穿衣、手臂操作）和4种类型的机器人（PR2、Jaco、Baxter、Sawyer）。环境。人类以两种状态存在：一种是不动，一种是在另一措施的作用下动。此外，人类可以使用男性或女性模型，它是由多达40个关节组成的。

Assistive Gym: A Physics Simulation Framework for Assistive Robotics

安全体育馆

这个环境有很多障碍物，如下图所示，主要用于研究强化学习探索过程中的安全性。

Benchmarking Safe Exploration in Deep Reinforcement Learning

自动操作

自主车辆模拟器

这是微软人工智能与研究部的一个自动驾驶模拟器，基于虚幻引擎/Unity。

卡拉

CARLA是一个可以训练和评估自动驾驶的环境，提供的API可以用来设置各种环境条件，如交通状况、行人行为和天气。它还可以访问各种传感器数据，包括激光雷达、多个摄像头、深度传感器和GPS。此外，用户可以创建自己的地图。

CARLA: An Open Urban Driving Simulator

DeepGTAV v2

在GTAV（Grand Theft Auto V）中，它是一个插件，可以做为图像输入自动驾驶的学习。

摘要

在这篇文章中，我们介绍了强化学习的各种环境。由于你需要根据你想评估的内容来选择环境，所以对每个环境能做什么或你能评估什么有一些了解是非常重要的。思考一下，如果有一些东西无法在现在的环境中得到评估，那么需要什么样的新环境也是很有意思的。

与本文相关的类别

山田

如果您对文章内容有任何改进建议等，请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系，我们将非常感激。