模特们自己奖励自己，自己训练自己！

自我奖励 28/07/2024

三个要点

✔️ 提出了一种结合 LLM 即法官提示的方法，并允许 LLM 自身在学习过程中获得奖励
✔️ 通过培训后的指导进行自我指导创建和迭代学习，使模型能够自我完善。使模型能够自我完善
✔️ 比较实验表明，AlpacaEval2.0 排行榜优于许多现有模型。

Self-Rewarding Language Models
written by Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Shkhbaatar, Jing Xu, Jason Weston
(Submitted on 18 Jan 2024(v1), last revised 8 Feb 2024 (this version, v2))
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

近年来，人们开展了大量研究，以提高大型语言模型（LLM）（如 ChatGPT）的性能，最近发现，使用偏好数据（公司与其客户共享的数据，其中包括预算和购买习惯等个人信息）对LLM 进行预训练，可以显著提高模型的性能。通过使用参考数据（公司与其客户共享的数据，其中包括预算和购买习惯等个人信息）对 LLM 进行预学习，可以显著提高模型的性能。

另一方面，这些方法的一个主要问题是，数据的规模和质量是一个瓶颈，因为模型需要从人工准备的数据中进行训练。

在此背景下，本文介绍了自奖励语言模型（Self-Rewarding Language Models）如何消除数据大小和质量的瓶颈，并在比较中优于许多现有模型。本节将介绍一篇论文，其中 的实验表明它优于许多现有模型。

法学硕士担任法官

首先，解释本文提出的方法中使用的LLM 即法官。

LLM-as-a-Judge 是一种基于 LLM 的自动评估技术，近年来作为生成式人工智能的一种评估方法备受关注，本文中使用的是下图所示的提示形式。

该提示指示模型使用五项标准（相关性、覆盖面、有用性、清晰度和专业性）来评估给定答复的质量。

自我奖励语言模型

本文提出的自我奖励语言模型概览如下图所示。

如图所示，"自我奖励语言模型 "包括两个步骤：创建 "自我指令 "和训练后的 "指令"。

自学创作

在这一步中，模型 _Mt接收新生成的提示（生成新提示），模型Mt从中生成高质量的回复（生成回复）。

此时，模型 _Mt也会通过前述的 "LLM-as-a-Judge "提示来预测自己的奖励（生成奖励），并将其用于下一步。

培训后的指导

在这一步中，根据 LLM 即法官提示生成的数据创建一个新的数据集（偏好对），并通过 DPO（直接偏好优化）进行训练，从中生成模型_Mt+1生成，并对模型进行下一次迭代训练。

从种子模型开始，这一步骤会重复多次，在每次迭代中，模型会针对新创建的提示生成候选答案，并分配相同的模型奖励。

作者在论文中指出，"这一过程消除了限制 LLM 模型的瓶颈"。

实验装置

本文以 Llama-2-70B 为基础模型，使用两组数据（IFT 种子数据和EFT 种子数据）进行了实验。

根据开放助手数据集，IFT 种子数据将从 3200 个会话实例中仅抽取高质量英语会话的第一个会话部分，并基于人工标注的等级。

此外，在本文中，仅使用这些数据对基础模型进行微调的模型被称为SFT 基准，并用于对比实验。

EFT 种子数据是开放助手数据集，分为训练集和评估集，并应用了 LLM-as-a-Judge。

此外，为了比较所提议的模型在两个轴上的性能--遵从指令的能力和作为奖励模型的能力--本文使用了AlpacaEval 评价提示，并根据现有的研究，对来自不同来源的 256 个测试提示进行了 GPT-4 测试。评价者作为评价工具。

此外，论文还报告了在AlpacaEval2.0 排行榜上对 805 条提示进行评估的结果。

结果

不同提示的实验结果如下图所示。_(M1、_M2、_M3= 分别重复学习 1、2 和 3 次）。

实验结果表明，自我奖励_M1的性能与 SFT 基准线相当。(30.5% vs 30.9%)

另一方面，自我奖励_M2明显优于 SFT 基准（49.2% 对 14.5%），自我奖励_M3 的差距更大（62.5% 对 9.8%）。(62.5% vs 9.8%)

此外，在_M1 vs_M3、_M1 vs_M2和_M2 vs_M3的结果中，训练迭代次数最多的模型分别获胜，这表明模型性能在每次迭代中都有显著提高。

下表显示了 AlpacaEval2.0 排行榜上的实验结果。(胜率 = 对战 GPT-Turbo 的胜率）

从表中可以看出，每次重复研究的胜率都在提高：_M1为 9.94%，_M2为 15.38%，_M3为 20.44%。

就_M3机型而言，它的胜率超过了许多现有机型，包括克劳德 2、双子星 Pro 和 GPT-4 0613。

摘要

结果如何？在这篇文章中，我们介绍了自奖励语言模型（Self-Rewarding Language Models）这一自我补偿模型，在该模型中，语言模型本身在学习过程中通过 LLM-as-a-Judge 提示获得奖励，并进行迭代学习，从而消除了数据大小和质量的瓶颈，对比实验表明，它的性能优于许多现有模型。论文解释了它在对比实验中的表现如何优于许多现有模型。

虽然本文进行的实验证明，利用自我奖励模型进行迭代学习是有效的，但需要注意的是，本实验只进行了最多三次迭代。

作者未来的研究议程包括：在增加迭代次数时，以及在不同环境下使用能力更强或更弱的语言模型时，了解缩放定律（即 LLM 参数数量和数据集规模越大，性能越高的定律）。下面提到的是

正如论文中提到的，虽然这种方法通过迭代提高的性能在现实场景中很可能趋于饱和，但它为在不受数据限制的情况下不断改进模型打开了一扇大门，未来的进展非常令人兴奋。

本文所介绍的自我奖励模型和实验结果的详情可参见本文，有兴趣者可参阅�

与本文相关的类别

田中侑李