赶上最新的AI论文

模特们自己奖励自己,自己训练自己!

模特们自己奖励自己,自己训练自己!

自我奖励

三个要点

✔️ 提出了一种结合 LLM 即法官提示的方法,并允许 LLM 自身在学习过程中获得奖励
✔️ 通过培训后的指导进行自我指导创建和迭代学习,使模型能够自我完善使模型能够自我完善
✔️ 比较实验表明,AlpacaEval2.0 排行榜优于许多现有模型。

Self-Rewarding Language Models
written by Weizhe YuanRichard Yuanzhe PangKyunghyun ChoXian LiSainbayar ShkhbaatarJing XuJason Weston
(Submitted on 18 Jan 2024(v1), last revised 8 Feb 2024 (this version, v2))
Comments: 
Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI)

code:
  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

近年来,人们开展了大量研究,以提高大型语言模型(LLM)(如 ChatGPT)的性能最近发现,使用偏好数据(公司与其客户共享的数据,其中包括预算和购买习惯等个人信息)LLM 进行预训练,可以显著提高模型的性能。通过使用参考数据(公司与其客户共享的数据,其中包括预算和购买习惯等个人信息)对 LLM 进行预学习,可以显著提高模型的性能。

另一方面,这些方法的一个主要问题是,数据的规模和质量是一个瓶颈,因为模型需要从人工准备的数据中进行训练

在此背景下,本文介绍了自奖励语言模型(Self-Rewarding Language Models)如何消除数据大小和质量的瓶颈,并在比较中优于许多现有模型本节将介绍 一篇论文,其中实验表明它优于许多现有模型

法学硕士担任法官

首先,解释本文提出的方法中使用的LLM 即法官

LLM-as-a-Judge 是一种基于 LLM 的自动评估技术,近年来作为生成式人工智能的一种评估方法备受关注,本文中使用的是下图所示的提示形式。

该提示指示模型使用五项标准(相关性、覆盖面、有用性、清晰度和专业性评估给定答复的质量

自我奖励语言模型

本文提出的自我奖励语言模型概览如下图所示。

如图所示,"自我奖励语言模型 "包括两个步骤:创建 "自我指令 "和训练后的 "指令"。

自学创作

这一步,模型 Mt接收新生成的提示(生成新提示),模型Mt从中生成高质量的回复(生成回复)

此时,模型 Mt也会通过前述的 "LLM-as-a-Judge "提示来预测自己的奖励(生成奖励),并将其用于下一步。

培训后的指导

在这一步中,根据 LLM 即法官提示生成的数据创建一个新的数据集(偏好对),并通过 DPO(直接偏好优化)进行训练,从中生成模型Mt+1生成,并对模型进行下一次迭代训练。

从种子模型开始,这一步骤会重复多次,在每次迭代中,模型会针对新创建的提示生成候选答案,并分配相同的模型奖励。

作者在论文中指出,"这一过程消除了限制 LLM 模型的瓶颈"

实验装置

本文以 Llama-2-70B 为基础模型,使用两组数据(IFT 种子数据和EFT 种子数据)进行了实验。

根据开放助手数据集,IFT 种子数据将从 3200 个会话实例中仅抽取高质量英语会话的第一个会话部分,并基于人工标注的等级。

此外,在本文中,仅使用这些数据对基础模型进行微调的模型被称为SFT 基准,并用于对比实验。

EFT 种子数据是开放助手数据集,分为训练集和评估集,并应用了 LLM-as-a-Judge。

此外,为了比较所提议的模型在两个轴上的性能--遵从指令的能力和作为奖励模型的能力--本文使用了AlpacaEval 评价提示,并根据现有的研究,对来自不同来源的 256 个测试提示进行了 GPT-4 测试。评价者作为评价工具。

此外,论文还报告了在AlpacaEval2.0 排行榜上对 805 条提示进行评估的结果。

结果

不同提示的实验结果如下图所示。(M1M2M3= 分别重复学习 1、2 和 3 次

实验结果表明,自我奖励M1的性能与 SFT 基准线相当。(30.5% vs 30.9%)

另一方面,自我奖励M2明显优于 SFT 基准(49.2% 对 14.5%),自我奖励M3差距更大(62.5% 对 9.8%(62.5% vs 9.8%)

此外,在M1 vsM3M1 vsM2M2 vsM3的结果中,训练迭代次数最多的模型分别获胜,这表明模型性能在每次迭代中都有显著提高

下表显示了 AlpacaEval2.0 排行榜上的实验结果。(胜率 = 对战 GPT-Turbo 的胜率)

从表中可以看出,每次重复研究的胜率都在提高M1为 9.94%,M2为 15.38%,M3为 20.44%。

M3机型而言,它的胜率超过了许多现有机型,包括克劳德 2、双子星 Pro 和 GPT-4 0613

摘要

结果如何?在这篇文章中,我们介绍了自奖励语言模型(Self-Rewarding Language Models)这一自我补偿模型,在该模型中,语言模型本身在学习过程中通过 LLM-as-a-Judge 提示获得奖励,并进行迭代学习,从而消除了数据大小和质量的瓶颈,对比实验表明,它的性能优于许多现有模型。论文解释了它在对比实验中的表现如何优于许多现有模型。

虽然本文进行的实验证明,利用自我奖励模型进行迭代学习是有效的,但需要注意的是,本实验只进行了最多三次迭代

作者未来的研究议程包括:在增加迭代次数时,以及在不同环境下使用能力更强或更弱的语言模型时,了解缩放定律(即 LLM 参数数量和数据集规模越大,性能越高的定律)。下面提到的是

正如论文中提到的,虽然这种方法通过迭代提高的性能在现实场景中很可能趋于饱和,但它为在不受数据限制的情况下不断改进模型打开了一扇大门,未来的进展非常令人兴奋。

本文所介绍的自我奖励模型和实验结果的详情可参见本文,有兴趣者可参阅�

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们