
模特们自己奖励自己,自己训练自己!
三个要点
✔️ 提出了一种结合 LLM 即法官提示的方法,并允许 LLM 自身在学习过程中获得奖励
✔️ 通过培训后的指导进行自我指导创建和迭代学习,使模型能够自我完善。使模型能够自我完善
✔️ 比较实验表明,AlpacaEval2.0 排行榜优于许多现有模型。
Self-Rewarding Language Models
written by Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Shkhbaatar, Jing Xu, Jason Weston
(Submitted on 18 Jan 2024(v1), last revised 8 Feb 2024 (this version, v2))
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
近年来,人们开展了大量研究,以提高大型语言模型(LLM)(如 ChatGPT)的性能,最近发现,使用偏好数据(公司与其客户共享的数据,其中包括预算和购买习惯等个人信息)对LLM 进行预训练,可以显著提高模型的性能。通过使用参考数据(公司与其客户共享的数据,其中包括预算和购买习惯等个人信息)对 LLM 进行预学习,可以显著提高模型的性能。
另一方面,这些方法的一个主要问题是,数据的规模和质量是一个瓶颈,因为模型需要从人工准备的数据中进行训练。
在此背景下,本文介绍了自奖励语言模型(Self-Rewarding Language Models)如何消除数据大小和质量的瓶颈,并在比较中优于许多现有模型。本节将介绍 一篇论文,其中 的实验表明它优于许多现有模型。
法学硕士担任法官
首先,解释本文提出的方法中使用的LLM 即法官。
LLM-as-a-Judge 是一种基于 LLM 的自动评估技术,近年来作为生成式人工智能的一种评估方法备受关注,本文中使用的是下图所示的提示形式。
该提示指示模型使用五项标准(相关性、覆盖面、有用性、清晰度和专业性)来评估给定答复的质量。
自我奖励语言模型
本文提出的自我奖励语言模型概览如下图所示。
如图所示,"自我奖励语言模型 "包括两个步骤:创建 "自我指令 "和训练后的 "指令"。
自学创作
在这一步中,模型 Mt接收新生成的提示(生成新提示),模型Mt从中生成高质量的回复(生成回复)。
此时,模型 Mt也会通过前述的 "LLM-as-a-Judge "提示来预测自己的奖励(生成奖励),并将其用于下一步。
培训后的指导
在这一步中,根据 LLM 即法官提示生成的数据创建一个新的数据集(偏好对),并通过 DPO(直接偏好优化)进行训练,从中生成模型Mt+1生成,并对模型进行下一次迭代训练。
从种子模型开始,这一步骤会重复多次,在每次迭代中,模型会针对新创建的提示生成候选答案,并分配相同的模型奖励。
作者在论文中指出,"这一过程消除了限制 LLM 模型的瓶颈"。
实验装置
本文以 Llama-2-70B 为基础模型,使用两组数据(IFT 种子数据和EFT 种子数据)进行了实验。
根据开放助手数据集,IFT 种子数据将从 3200 个会话实例中仅抽取高质量英语会话的第一个会话部分,并基于人工标注的等级。
此外,在本文中,仅使用这些数据对基础模型进行微调的模型被称为SFT 基准,并用于对比实验。
EFT 种子数据是开放助手数据集,分为训练集和评估集,并应用了 LLM-as-a-Judge。
此外,为了比较所提议的模型在两个轴上的性能--遵从指令的能力和作为奖励模型的能力--本文使用了AlpacaEval 评价提示,并根据现有的研究,对来自不同来源的 256 个测试提示进行了 GPT-4 测试。评价者作为评价工具。
此外,论文还报告了在AlpacaEval2.0 排行榜上对 805 条提示进行评估的结果。
结果
不同提示的实验结果如下图所示。(M1、M2、M3= 分别重复学习 1、2 和 3 次)。
实验结果表明,自我奖励M1的性能与 SFT 基准线相当。(30.5% vs 30.9%)
另一方面,自我奖励M2明显优于 SFT 基准(49.2% 对 14.5%),自我奖励M3 的差距更大(62.5% 对 9.8%)。(62.5% vs 9.8%)
此外,在M1 vsM3、M1 vsM2和M2 vsM3的结果中,训练迭代次数最多的模型分别获胜,这表明模型性能在每次迭代中都有显著提高。
下表显示了 AlpacaEval2.0 排行榜上的实验结果。(胜率 = 对战 GPT-Turbo 的胜率)
从表中可以看出,每次重复研究的胜率都在提高:M1为 9.94%,M2为 15.38%,M3为 20.44%。
就M3机型而言,它的胜率超过了许多现有机型,包括克劳德 2、双子星 Pro 和 GPT-4 0613。
摘要
结果如何?在这篇文章中,我们介绍了自奖励语言模型(Self-Rewarding Language Models)这一自我补偿模型,在该模型中,语言模型本身在学习过程中通过 LLM-as-a-Judge 提示获得奖励,并进行迭代学习,从而消除了数据大小和质量的瓶颈,对比实验表明,它的性能优于许多现有模型。论文解释了它在对比实验中的表现如何优于许多现有模型。
虽然本文进行的实验证明,利用自我奖励模型进行迭代学习是有效的,但需要注意的是,本实验只进行了最多三次迭代。
作者未来的研究议程包括:在增加迭代次数时,以及在不同环境下使用能力更强或更弱的语言模型时,了解缩放定律(即 LLM 参数数量和数据集规模越大,性能越高的定律)。下面提到的是
正如论文中提到的,虽然这种方法通过迭代提高的性能在现实场景中很可能趋于饱和,但它为在不受数据限制的情况下不断改进模型打开了一扇大门,未来的进展非常令人兴奋。
本文所介绍的自我奖励模型和实验结果的详情可参见本文,有兴趣者可参阅�
与本文相关的类别