EUREKA：利用 LLM 自动设计薪酬。

RLHF 04/12/2023

三个要点
✔️ 提出了一种用于自主奖励设计的方法--EUREKA
✔️ 将 LLM 的代码生成能力与进化优化相结合
✔️ 演示了比人工设计的奖励函数更好的性能，并适用于课程学习和无梯度 RLHF。研究表明

Eureka: Human-Level Reward Design via Coding Large Language Models
written by Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar
(Submitted on 19 Oct 2023)
Comments: Project website and open-source code: this https URL
Subjects: Robotics (cs.RO); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

导言

强化学习是一种算法，它在多个领域都取得了令人瞩目的成果，但在实际应用中，它却面临着如何正确设计奖励函数的难题。

本文介绍的研究试图利用最近流行的大规模语言模型来解决这一问题。

让我们进一步了解大规模语言模型和强化学习，以及它们之间的联系

薪酬设计问题

强化学习是一种算法，在这种算法中，一个代理接收一些观测值 $O$，并学习一种措施 $A$，从而输出一个行动 $A$，使一个称为奖励函数 $R$ 的目标函数最大化

采用强化学习的常见情况是，代理需要完成某些任务（目标），但却不清楚该使用什么程序来实现该目标。例如，在让一根棍子平衡地站在机器人手掌上的问题中，人类很难按顺序描述控制指令，因此我们希望利用强化学习的探索能力，让代理自主学习控制方法

然而，任务越复杂，强化学习的目标函数 $R$ 和我们人类希望达到的性能指标（这里称为适应性函数 $F$）之间的分歧就越大。

仅仅试图训练它使 $F$ 最大化，就会导致强化学习代理花费大量时间来寻找解决方案

因此，如何恰当地设计奖励函数 $R$，也就是强化学习代理的目标函数，使我们人类想要达到的性能指标 $F$ 最大化，是一个众所周知的难题，这被称为奖励设计问题（Reward Design Problem (RDP）[辛格等人，2010 年]

本文讨论的是奖励生成问题，特别是在给定描述任务的字符串的情况下，用代码输出奖励函数 $R$，使适应度 $F$ 最大化的问题

方法：有关 EUREKA 的更多信息

针对上述奖励设计问题，本文提出了一种名为 "EUREKA "的方法，它由三个部分组成：环境信息展示、进化优化和奖励函数反思。

介绍环境信息

由于 LLM 接受文本数据作为输入，因此问题在于如何将环境结构转换为文本数据，但这种方法提出只需将环境的原始代码直接输入 LLM 即可。

这样做是基于这样一种预期，即鉴于 LLM 本身就是在代码数据方面接受过培训的，他们将能够很好地利用这种能力，并且通过向他们提供环境的代码，他们将能够得出有关环境的含义和要使用的变量的信息。

进化优化

在一次迭代中，生成 16 个候选奖励函数，针对表现最好的一个进行改进，然后生成 16 个新的候选函数，如此反复进行五次迭代。此外，为了消除对初始值的依赖，这一过程总共要进行五次

对奖励函数的反思

为了准确评估奖励函数，必须能够解释奖励函数在哪里以及如何工作。为此，应保存奖励函数每个项的输出结果，以便日后参考。

试验

实验评估了 EUREKA 在不同机器人环境和任务中的表现。

GPT-4 主要用作 LLM

环境

在 Isaac Gym 模拟器上使用了 10 种不同的机器人作为代理，并验证了 29 种不同的任务。

采用的机器人控制任务包括四足、双足和手臂任务（Issac），以及需要手部灵巧控制的任务（Dexterity），如物体传送和杯子旋转

底线

以下三个比较基准用于评估 EUREKA 的绩效。

稀疏：决定任务成功或失败的函数。与适应性函数 $F$同义。

人类：由设计任务的强化学习研究人员自己定义的原始奖励函数。

L2R：由[Yu 等人，2023 年]提出的一种使用 LLM 的奖励函数设计方法。环境和任务以自然语言描述，输入第一个 LLM，生成描述代理行为的文本。然后将其输入第二个 LLM，该 LLM 使用预先准备好的奖励函数基元来设计奖励函数代码�

实验结果

下图比较了使用各种方法的奖励函数训练出的代理的性能。

所有伊萨克任务和 15/20 灵巧任务的表现都高于人类水平。

下图显示了在进化优化过程中每次迭代使用最佳策略时的性能变化。从中可以看出，性能是如何随着进化优化不断提高的。

下图显示了EUREKA产生的奖励（尤里卡奖励）和人类设定的奖励（人类奖励）之间的相关性（纵轴），以及尤里卡奖励和人类奖励之间的相对绩效（横轴）。

发现尤里卡奖励和人类奖励之间存在微弱的正相关性。另一方面，一些任务的相关性较弱，一些奖励函数显示出负相关。

这表明，EUREKA 可以设计出人类无法找到的奖励功能。

下图显示了对 EUREKA 在钢笔旋转这一艰巨任务中的表现进行调查的结果。

预训练 "是一种在 EUREKA 中经过预训练的测量方法，用于改变笔在手上的方向，而 "微调 "是一种在 EUREKA 中经过微调的测量方法，用于改变笔的方向。

另一方面，Scratch 是一种让孩子们从一开始就学习钢笔字的策略，而无需经历这样一个两阶段的学习过程。

这表明，只有使用 "EUREKA "提供两个阶段的学习过程（课程学习），才能成功实现钢笔书写。

结果表明，EUREKA 能够应用课程学习等现有学习技术，为高难度任务设计自主奖励。

此外，对于某些任务，可能无法获得自适应函数 $F$。在这种情况下，实验表明，可以通过文本形式接收人类反馈，并利用这种方法来提高奖励。

例如，在学习仿人行走任务时，EUREKA 方法（记为 EUREKA-HF）根据文本人类反馈而不是 $F$ 改进了奖励函数，其结果比简单的 EUREKA 方法更符合人类的偏好。

EUREKA-HF 的突破在于它是一种无需梯度计算的全新 RLHF 方法。

摘要

本文提出的 EUREKA 结合了 LLM 和进化优化方法，实现了自主奖励设计。

这是一种多功能方法，无需设计特定任务提示或人工干预，就能显示出很高的性能。

今后，它将被广泛应用于各种问题。

与本文相关的类别

Abe